机器学习之SVM支持向量机大红鹰葡京会娱乐,帮忙向量机

8. Support Vector Machines(SVMs)

Content

    8. Support Vector
Machines(SVMs)

      8.1 Optimization Objection

      8.2 Large margin intuition

      8.3 Mathematics Behind Large Margin Classification

      8.4 Kernels

      8.5 Using a SVM

        8.5.1 Multi-class Classification

        8.5.2 Logistic Regression vs. SVMs

前言

8.1 Optimization Objection

支撑向量机(Support Vector Machine:
SVM)是一种十三分有效的监督式机器学习算法。首先回想一下Logistic回归,依照log()函数以及Sigmoid函数的质量,有:

大红鹰葡京会娱乐 1

与此同期,Logistic回归的代价函数(未正则化)如下:

大红鹰葡京会娱乐 2

为获得SVM的代价函数,大家作如下修改:

大红鹰葡京会娱乐 3

就此,比较Logistic的优化目标

大红鹰葡京会娱乐 4

SVM的优化指标如下:

大红鹰葡京会娱乐 5

注1:事实上,上述公式中的Cost0与Cost1函数是一种名字为hinge损失代表损失(surrogate
loss)函数
,其他周边的代表损失函数有指数损失对率损失,具体参见《机器学习》P129
周志华)

注2:注意参数C和λ的附和关系: C与(1 /
λ)成正相关。

           以下内容是私房学习之后的觉醒,转发请申明出处~

8.2 Large margin intuition

据说8.1中的代价函数,为使代价函数最小,有如下结论:

大红鹰葡京会娱乐 6

现倘若C不小(如C=100000),为使代价函数最小,大家愿意

大红鹰葡京会娱乐 7

为此代价函数就改成:

大红鹰葡京会娱乐 8

所以难题就成为:

大红鹰葡京会娱乐 9

该难题最后的优化结果是找到具备“最大间隔”(maximum
margin)
的细分超平面,所以帮忙向量机又称大间距分类器(large margin
classifier
)。那么什么样是间隔?
为啥这样优化就能够找到最大跨距?首先,我们由此图8-1所示的二维的0/1线性分类意况来直观感受。

大红鹰葡京会娱乐 10

图8-1 SVM Decision Boundary: Linearly
separable case

直观上,应该去找位于两类操练样本”正中间”的分割超平面,即图8-1的浅橙直线(二维),因为该划分超平面临磨练样本局地动乱的”容忍”性最佳。比如,图中的绿色和奶油色直线,一旦输入数据稍有生成,将会获得错误的预测。换言之,这一个划分超平面所发生的归类结果是最鲁棒的,对要揣度数据集的泛化技艺最强。而两条玫瑰紫直线之间的偏离就称为间隔(margin)。下一节将从数学角度来解释间隔与最大距离的优化原理。

 

8.3 Mathematics Behind Large Margin Classification

先是介绍一些数学知识。

  • 2-范数(2-norm)
    也可称长度(length),是二维或三个维度空间向量长度的拓展,向量u记为||u||。比如,对于向量u
    = [ u1, u2, u3, u4],||u|| = sqrt(u1^2 + u2^2 + u3^2 + u4^2)
  • 向量内积(Vector Inner Product):
    设向量a = [a1, a2, … , an],向量b =
    [b1, b2, … , bn],a和b的的内积定义为:a · b = a1b1 + a2b2 + … +
    anbn
    。向量内积是几何向量数量积(点积)的拓展,能够知道为向量a在向量b上的影子长度(范数)和向量b的尺寸的乘积。

所以有:

大红鹰葡京会娱乐 11

大红鹰葡京会娱乐 12

其中大红鹰葡京会娱乐 13大红鹰葡京会娱乐 14大红鹰葡京会娱乐 15向量上的阴影长度。

故此,8.2节到手的优化难题得以转为如下方式:

大红鹰葡京会娱乐 16

分水线为大红鹰葡京会娱乐 17,所以能够大红鹰葡京会娱乐 18和分水线正交(垂直),何况当大红鹰葡京会娱乐 19时,分水岭过原点(欧式空间)。为使目的最优(取最小值)且满意约束,大红鹰葡京会娱乐 20有道是尽或许大,那样将要求间距尽可能的大。直观的如图8-2所示,图左为距离相当小的场所,此时的大红鹰葡京会娱乐 21相当小,为知足约束,导致指标函数变大,图右为最大间距的意况,此时的大红鹰葡京会娱乐 22是最大的,所以指标能够尽或者的小。

大红鹰葡京会娱乐 23

图8-2 二种不相同距离的景况

 

8.4 Kernels

上述的商酌皆以基于线性可分的范本,即存在贰个细分超平面能够将磨练样本精确分类,但是现实世界存在多量长短不一的,非线性分类难点(如4.4.2节的异或/同或问题)。Logistic回归管理非线性难题可以通过引进多项式特征量作为新的特征量;神经互联网通过引进掩盖层,逐层进消除决非线性分类难点;而SVM是透过引进核函数(kernel
function)
来解决非线性难点。具体做法如下:

  1. 对于给定输出x,
    规定一定数量的landmarks,记为大红鹰葡京会娱乐 24
  1. 将x,
    大红鹰葡京会娱乐 25用作核函数的输入,获得新的特征量大红鹰葡京会娱乐 26,若将核函数记为similarity(),则有
![](https://images2015.cnblogs.com/blog/788978/201604/788978-20160420234209507-481973190.png),其中![](https://images2015.cnblogs.com/blog/788978/201604/788978-20160420234209929-1550630364.png)与![](https://images2015.cnblogs.com/blog/788978/201604/788978-20160420234210273-1166684799.png)为一一对应;
  1. 将新的特征量取代原有特征量,获得要是函数如下:
![](https://images2015.cnblogs.com/blog/788978/201604/788978-20160420234210648-754947467.png)

昨日有多个难题,

  1. 怎样抉择landmarks?

  2. 用哪些的核函数 ?

对此第八个难点,能够依照如下情势,即将陶冶集的输入作为landmarks

大红鹰葡京会娱乐 27

故而特征量的个数与磨炼集的个数相等,即n =
m,所以包含核的SVM变为如下方式:

大红鹰葡京会娱乐 28

对此第1个难题,常用的核函数有线性核,高斯核,多项式核,Sigmoid核,拉普Russ核等,现以常用的高斯核(Gaussian)为例。

大红鹰葡京会娱乐 29

高斯核具备如下性质:

大红鹰葡京会娱乐 30

也正是说,假使x和landmark接近,那么核函数的值也正是新的特征量将会接近1,而假设x和landmark距离相当的远,那么核函数的值将会类似0.

大红鹰葡京会娱乐 31是高斯核的参数,它的轻重会影响核函数值的浮动速度,具体的,图8-3是二个二维情状下的超过常规规例子,可是所包蕴的属性是可推广的。即大红鹰葡京会娱乐 32越大,核函数变化(下降)越缓慢,反之,大红鹰葡京会娱乐 33越小,核函数变化越快。

大红鹰葡京会娱乐 34

图8-3 参数对高斯核的熏陶比方

  • 怎么样挑选参数?

上面前蒙受SVM的参数对不是和方差的影响做简单解析:

  • C: 由于C和(1 / λ)正相关,结合6.4.2节对λ的剖判有:

                       
 大红鹰葡京会娱乐 35

  • 大红鹰葡京会娱乐 36

                         
大红鹰葡京会娱乐 37

简介

8.5 Using a SVM

上文轻巧的牵线了SVM的优化原理以及核函数的利用方法。在其实使用SVM中,大家无需团结去贯彻SVM的陶冶算法来收获参数大红鹰葡京会娱乐 38,经常是利用现成的软件包(如liblinear,
libsvm)。

唯独上边包车型地铁行事是大家必要做的:

  • 选料参数C的值

  • 挑选并促成核函数

    • 假诺核函数带参数,须要选取核函数的参数,譬如高斯核须要选择大红鹰葡京会娱乐 39
-   如果无核(选择线性核),即给出线性分类器,适用于n大,m小的情况


-   选择非线性核(如高斯核),适用于n小,m大的情况

上边是索要注意的地点:

  • 在应用核函数在此以前要对特征量举行规范化
  • 并非有着的函数是可行的核函数,它们必得满意Mercer定理。
  • 设若想要通过陶冶取得参数C或许核函数的参数,应该是在陶冶集和时有时无检查集上进行,,参见6.3节

  辅助向量机(support vector machine),简称SVM,通俗来说,它是一种二类分类模型,个中央模型定义为特

8.5.1 Multi-class Classification

大红鹰葡京会娱乐 40

征空间上的区间最大的线性分类器,其学习战术就是距离最大化,最终可转化为一个凸贰遍设计难点的求解。

8.5.2 Logistic Regression vs. SVMs

大红鹰葡京会娱乐 41

 

参考:《机器学习》 周志华

 

原理

SVM代价函数

  帮忙向量机的代价函数和逻辑回归的代价函数十一分相似,因为前端能够之前面一在那之中衍化出来。如下图所示,其实,支

持向量机的代价函数只是把逻辑回归的代价函数里的项实行了项替换(这里是形似项,并不对等,从图中得以观望),

而且把1/m去掉了(因为那是视如草芥的)。那时,大家都会认为奇异,为啥要替换项呢?替换了将来到达了如何效

果呢?

大红鹰葡京会娱乐 42大红鹰葡京会娱乐 43

  事实上,项替换了随后,我们能够在上航海用体育场合清晰地看来,cost1(z)和cost2(z)项的曲线图近似于原来逻辑回归中对应项的

曲线,不过这两项比原先越来越直观,从上海体育场面中得以看来,要想最小化代价函数,则:

  • 假使y=1,我们期待θTx≥1;大红鹰葡京会娱乐 44

  • 假使y=0,大家目的在于θTx≤-1;

 

 SVM最大跨距超平面

  首先,介绍一下向量内积,设有三个向量uv,则uTv=p·||u||,其中p为vu热播射的长度。如下图所示:

     
                                     
 大红鹰葡京会娱乐 45

  那么,怎么样将方面那几个数学原理用到SVM中吗?其实很简短,将uv分级替换为θx即可,则θTx=p·||θ||。既然要求

最大间距,那么只需各样样本特征值的p的值越大,那么超平面(即下图驼色色线)与样本点的距离越大,分类功用越来越好。不

过p不能够无界定的大,还要满意下图中的约束公式,即p尽量大,θ尽量小,使得代价函数越来越小,获得最大跨距超平面。

     
                                       
 大红鹰葡京会娱乐 46

  接下去,大家看一下SVM分类最大间距超平面的效能图,上边右图是我们需求的效应,分类作用越来越好。

     
                                                   
 大红鹰葡京会娱乐 47

核函数kernels

  上边都以批注线性可分的主题素材,那么,对于线性不可分难题,SVM该如何做呢?对,正是引进核函数,将低维的数据映

射到高维来减轻线性不可分难题。方今,常用的核函数有以下两种:

线性核函数(也称无核)

 

多项式核函数  

 

高斯核函数(RBF)  

 

sigmoid核函数   

 

   那么怎么着挑选核函数呢?本文做以下概述:

 

  • 倘使特征的数码大到和范本数量大致,则选取L索罗德只怕线性核的SVM;
  • 一旦特征的数据小,样本的数量平常,则选拔SVM+高斯核函数;
  • 假设特征的数额小,而样本的多少不小,则须求手工业增加一些风味进而成为第一种情状。

  本文将会以较为布满的高斯核函数来说学核函数在SVM中的功用。下图是

     
                                               
 大红鹰葡京会娱乐 48

  大家能够组织四个如上海教室中所写的多项式特征变量,来区别正负样本。这种多项式还可以写成上图中的:大红鹰葡京会娱乐 49

其中大红鹰葡京会娱乐 50除此而外这种表述,还是能不能够有更加好的其余采用去表示特征大红鹰葡京会娱乐 51。那就要引进核函数(kernels),

核函数是一种越来越好的抒发。大家能够由此测算原始向量与landmark之间的相似度来代表特征大红鹰葡京会娱乐 52,如下图所示:

 

     
                                                   
大红鹰葡京会娱乐 53

 

  当然还足以用别样的函数来计量相似度,只可是那几个事例中利用的高斯核函数。我们来看上海体育场合中计算大红鹰葡京会娱乐 54的公式,其中:

大红鹰葡京会娱乐 55

故而,大家能够察觉:

  • 大红鹰葡京会娱乐 56时,大红鹰葡京会娱乐 57
  • 大红鹰葡京会娱乐 58距离大红鹰葡京会娱乐 59很远时,大红鹰葡京会娱乐 60

  由此给定三个样本大红鹰葡京会娱乐 61上航海用体育场面中landmark(标识点)会定义出新的性状变量大红鹰葡京会娱乐 62 

  下边大家来拜会依照测算出的天性大红鹰葡京会娱乐 63什么样去分类样本。如下图所示:

 

     
                                                 
 大红鹰葡京会娱乐 64

 

  假设当大红鹰葡京会娱乐 65时,我们预测样本体系为“1”,倘诺我们早已求得大红鹰葡京会娱乐 66,那

么对于图中加以的样本x,大家能够总括出大红鹰葡京会娱乐 67,那么代入上式可得:大红鹰葡京会娱乐 68

故而估计样本x的品种“1”。因而一旦总括大批量的范本,就会得出多个非线性的表决边界,如图所示:

 

     
                                                 
 大红鹰葡京会娱乐 69

 

 

  那么未来有五个题材就算,大家是何许挑选获得大红鹰葡京会娱乐 70的,上边来介绍大红鹰葡京会娱乐 71是什么样获得的。

  在刚起头,大家只需把演练聚焦的样书一一对应成大红鹰葡京会娱乐 72即可,即给定大红鹰葡京会娱乐 73

大红鹰葡京会娱乐 74一般来讲图所示:

     
                                 
 大红鹰葡京会娱乐 75

 

  因此,若给定一个演练样本大红鹰葡京会娱乐 76,能够得到如下特征大红鹰葡京会娱乐 77:

     
                                 
  大红鹰葡京会娱乐 78

  其中大红鹰葡京会娱乐 79

  由此,带核函数的SVM(SVM
with kernels)的代价函数变为:

 

     
                      大红鹰葡京会娱乐 80

  关于SVM的核函数(kernels)就介绍到这,上面来看看SVM中参数的选料主题材料(首要是参数大红鹰葡京会娱乐 81大红鹰葡京会娱乐 82该怎么抉择):

 

     
                     大红鹰葡京会娱乐 83

进行中运用SVM

  在实质上采纳SVM的时候,不建议我们本人达成SVM,因为SVM是一个一定的优化难题。近期早已有特别干练况兼

高度优化的软件包,如国立浙江学院林智仁教授开采的liblinear(http://www.csie.ntu.edu.tw/~cjlin/liblinear/)和LibSVM(http://www.csie.ntu.edu.tw/~cjlin/libsvm/),特别有名。但是大家依然须求做的是以下两点:

     
     大红鹰葡京会娱乐 84

 

 

 

上述是全部内容,假如有何样地方不对,请在下边留言,多谢~

相关文章

admin

网站地图xml地图