支持向量機

支持向量機

監督式機器學習方法
支持向量機(Support Vector Machine,常簡稱為SVM)是一種監督式學習的方法,可廣泛地應用于統計分類以及回歸分析。[1]它是Corinna Cortes和Vapnik等于1995年首先提出的,它在解決小樣本、非線性及高維模式識别中表現出許多特有的優勢,并能夠推廣應用到函數拟合等其他機器學習問題中。這族分類器的特點是他們能夠同時最小化經驗誤差與最大化幾何邊緣區,因此支持向量機也被稱為最大邊緣區分類器。
    中文名:支持向量機 外文名:Support Vector Machine 所屬學科: 簡稱:SVM 提出時間:1995年 提出者:Corinna Cortes和Vapnik 相關内容:學習算法,監督學習

簡介

支持向量機方法是建立在統計學習理論的VC維理論和結構風險最小原理基礎上的,根據有限的樣本信息在模型的複雜性(即對特定訓練樣本的學習精度)和學習能力(即無錯誤地識别任意樣本的能力)之間尋求最佳折衷,以期獲得最好的推廣能力。

總體概述

在機器學習中,支持向量機(SVM,還支持矢量網絡)是與相關的學習算法有關的監督學習模型,可以分析數據,識别模式,用于分類和回歸分析。給定一組訓練樣本,每個标記為屬于兩類,一個SVM訓練算法建立了一個模型,分配新的實例為一類或其他類,使其成為非概率二元線性分類。一個SVM模型的例子,如在空間中的點,映射,使得所述不同的類别的例子是由一個明顯的差距是盡可能寬劃分的表示。新的實施例則映射到相同的空間中,并預測基于它們落在所述間隙側上屬于一個類别。

除了進行線性分類,支持向量機可以使用所謂的核技巧,它們的輸入隐含映射成高維特征空間中有效地進行非線性分類。

有關介紹

更正式地說,一個支持向量機的構造一個超平面,或在高或無限維空間,其可以用于分類,回歸,或其它任務中設定的超平面的。直觀地,一個良好的分離通過具有到任何類(所謂官能餘量)的最接近的訓練數據點的最大距離的超平面的一般實現中,由于較大的裕度下分類器的泛化誤差。

而原來的問題可能在一個有限維空間中所述,經常發生以鑒别集是不是在該空間線性可分。出于這個原因,有人建議,在原始有限維空間映射到一個高得多的立體空間,推測使分離在空間比較容易。保持計算負荷合理,使用支持向量機計劃的映射被設計成确保在點積可在原空間中的變量而言容易地計算,通過定義它們中選擇的核函數k(x,y)的計算以适應的問題。

在高維空間中的超平面被定義為一組點的點積與該空間中的向量是恒定的。限定的超平面的載體可被選擇為線性組合與參數alpha_i中發生的數據的基礎上的特征向量的圖像。這種選擇一個超平面,該點中的x的特征空間映射到超平面是由關系定義:字型sum_ialpha_ik(x_i中,x)=mathrm{常數}。

注意,如果k(x,y)變小為y的增長進一步遠離的x,在求和的每一項測量測試點x的接近程度的相應數據基點x_i的程度。以這種方式,内核上面的總和可以被用于測量各個測試點的對數據點始發于一個或另一個集合中的要被鑒别的相對接近程度。注意一個事實,即設定點的x映射到任何超平面可以相當卷積的結果,使集未在原始空間凸出于各之間複雜得多歧視。

動機

我們通常希望分類的過程是一個機器學習的過程。這些數據點是n維實空間中的點。我們希望能夠把這些點通過一個n-1維的超平面分開。通常這個被稱為線性分類器。有很多分類器都符合這個要求。但是我們還希望找到分類最佳的平面,即使得屬于兩個不同類的數據點間隔最大的那個面,該面亦稱為最大間隔超平面。如果我們能夠找到這個面,那麼這個分類器就稱為最大間隔分類器。

相關概念概述

所謂支持向量是指那些在間隔區邊緣的訓練樣本點。這裡的“機(machine,機器)”實際上是一個算法。在機器學習領域,常把一些算法看做是一個機器。

支持向量機(Support vector machines,SVM)與神經網絡類似,都是學習型的機制,但與神經網絡不同的是SVM使用的是數學方法和優化技術。

相關技術支持

支持向量機是由Vapnik領導的AT&T Bell實驗室研究小組在1995年提出的一種新的非常有潛力的分類技術,SVM是一種基于統計學習理論的模式識别方法,主要應用于模式識别領域。由于當時這些研究尚不十分完善,在解決模式識别問題中往往趨于保守,且數學上比較艱澀,這些研究一直沒有得到充分的重視。

直到90年代,統計學習理論 (Statistical Learning Theory,SLT)的實現和由于神經網絡等較新興的機器學習方法的研究遇到一些重要的困難,比如如何确定網絡結構的問題、過學習與欠學習問題、局部極小點問題等,使得SVM迅速發展和完善,在解決小樣本、非線性及高維模式識别問題中表現出許多特有的優勢,并能夠推廣應用到函數拟合等其他機器學習問題中。從此迅速的發展起來,已經在許多領域(生物信息學,文本和手寫識别等)都取得了成功的應用。

在地球物理反演當中解決非線性反演也有顯着成效,例如(支持向量機在預測地下水湧水量問題等)。已知該算法被應用的主要有:石油測井中利用測井資料預測地層孔隙度及粘粒含量、天氣預報工作等。

支持向量機中的一大亮點是在傳統的最優化問題中提出了對偶理論,主要有最大最小對偶及拉格朗日對偶。

SVM的關鍵在于核函數。低維空間向量集通常難于劃分,解決的方法是将它們映射到高維空間。但這個辦法帶來的困難就是計算複雜度的增加,而核函數正好巧妙地解決了這個問題。也就是說,隻要選用适當的核函數,就可以得到高維空間的分類函數。在SVM理論中,采用不同的核函數将導緻不同的SVM算法。

在确定了核函數之後,由于确定核函數的已知數據也存在一定的誤差,考慮到推廣性問題,因此引入了松弛系數以及懲罰系數兩個參變量來加以校正。在确定了核函數基礎上,再經過大量對比實驗等将這兩個系數取定,該項研究就基本完成,适合相關學科或業務内應用,且有一定能力的推廣性。當然誤差是絕對的,不同學科、不同專業的要求不一。

支持向量機的理解需要數據挖掘或機器學習的相關背景知識,在沒有背景知識的情況下,可以先将支持向量機看作簡單分類工具,再進一步引入核函數進行理解。

相關詞條

相關搜索

其它詞條