您好,欢迎来到尔游网。
搜索
您的当前位置:首页一种模糊加权的孪生支持向量机算法

一种模糊加权的孪生支持向量机算法

来源:尔游网
Computer Engineering andApplications计算机工程与应用 一种模糊加权的孪生支持向量机算法 娜,卢霄霞 李 凯,李LI Kai,LI Na,LU Xiaoxia 河北大学数学与计算机学院,河北保定071002 College of Mathematics and Computer,Hebei University,Baoding,Hebei 07 1 002,China LI Kai,LI Na,LU Xiaoxia.Twin Support Vector Machine algorithm with fuzzy weighting.Computer Engineering and Applications,2013,49(4):162—165. Abstract:Although Twin Support Vector Machine(TSVM)has faster speed than traditional support vector machine for classiif— cation problem,it does not take the importance of the training samples on the learning of the decision hyperplane into account with respect to the classification task.In this paper.Fuzzy Twin Support Vector Machine(FTSVM)is proposed by applying a fuzzy membership to each training sample to reduce the effects of the samples on the hyperplane.Experiments on several UCI benchmark datasets show that the fuzzy twin support vector machine is effective and feasible relative to twin support vector machine,fuzzy support vector machine and support vector machine. Key words:Twin Support Vector Machine;fuzzy weighting;classiication f摘要:虽然孪生支持向量机(Twin Support Vector Machine,TSVM)的处理速度优于传统的支持向量机,但其并没有考 虑输入样本点对最优分类超平面所产生的不同影响。通过为每个训练样本赋予不同的样本重要性,以及减少样本点对非 平行超平面的影响,提出了模糊加权孪生支持向量机(Fuzzy TSVM,FTSVM)。在UCI标准数据集上,对FTSVM进行了 实验研究并与TSVM、FSVM和SVM方法进行了比较,实验结果表明FTSVM方法是有效的。 关键词:孪生支持向量机;模糊加权;分类 文献标志码:A 中图分类号:TP18 doi:10.3778 ̄.issn.1002.8331.1107.0293 l 引言 支持向量机(Support Vector Machines,SVM)是由 Vapnik等最先提出的一种用于解决二类问题的机器学习方 于处理多分类问题的不可分区域;Lin 等提出了用于二分 类问题的模糊支持向量机;之后,Abe 等又提出了处理多 分类问题的模糊最小二乘支持向量机。 法,目前它已引起越来越多学者的关注并广泛应用于许多 领域。支持向量机是基于统计学习理论的结构风险最小 化原理(Structural Risk Minimization,SRM),该算法通过 求解一个凸二次规划问题来获得全局最优解,从理论上 来说,它克服了传统机器学习方法的小样本、非线性、维数 在2001年,Fung和Mangasarian 提出了近似支持向量 机(Proximal Suppo ̄Vector Machines,PSVM),通过在每 类样本集中设置与样本点邻近的平行超平面,且使两个超 平面之间距离达到最大,而所求的超平面为与它们等距平 行的超平面。在这种方法中,采用了类似于最小二乘支持 灾难和局部极值等问题。之后,Suykens等提出了最小二 乘支持向量机(Least Squares Support Vector Machines, LS.SVM),此方法将传统支持向量机中的不等式约束转换 为等式约束,从而使原来求解支持向量机的二次规划问题 转化为求解一个线性方程组,极大地提高了求解速度并降 低了求解难度,但该方法却破坏了传统支持向量机的稀疏 性。可以看到,在这些支持向量机中,所有样本对超平面 的贡献是相同的,为此Abeu 等提出了将模糊支持向量机用 向量机的等式约束而不是传统支持向量机的不等式约束, 通过求解线性方程组来获取问题的解;然而,PSVM并没有 考虑不同输入样本点可能对最优超平面的影响。为此, 文[5—6]提出了模糊邻近支持向量机。在2006年,Mangas— ariantT}等人对PSVM进行了推广,提出了广义特征值近似 支持向量机(Proximal Support Vector Machines via Gen— eralized Eigenvalues,GEPSVM),其实质是寻找两个无平 行约束的最优超平面,使得每一类样本尽可能离一个超平 基金项H:国家自然科学基金(No.61073121);河北省自然科学基金(No.F2012201014)。 作者简介:李凯(1963一),男,博士,教授,主要研究领域为机器学习,数据挖掘,模式识别等;李娜(1983一),女,硕士研究生;卢霄霞 (1984一),女,硕士研究生。E—mail:likai@hbu.edu.cn 收稿日期:2011—07—13 修回日期:2011-09—05 文章编号:1002—8331(20l3)04—0162一O4 CNKI出版日期:2011-11-14 http://www.cnki.net/kcms/detail/11.2127.TP.20111114.0949.063.html 李凯,李娜,卢霄霞:一种模糊加权的孪生支持向量机算法 孪生支持向量机中的平衡因子C 和c 仅能控制经验风险 的比例,为此,Peng 通过引入参数v。和v 来控制支持向量 和间隔错误并提出了v—TSVM,同时还对这种方法给出了 几何解释。 面距离近而离其他类样本尽可能的远,其问题归结为求解 两个广义特征值问题的最小特征值来获得全局极值;后 来,Jayadeva 等人又提出了模糊广义特征值支持向量机; 之后,基于GEPSVM思想,Jayadeva 提出了孪生支持向量 机(Twin Support Vector Machine,TSVM),该方法为两个 类分别得到一个分类超平面,属于每类的数据尽量围绕在 与之对应的分类超平面周围,即TWSVM需要求解一对规 模相对更小的二次规划问题。目前,许多学者在孪生支持 3模糊加权孪生支持向量机 3.1模糊加权孪生支持向量机算法 最初提出的孪生支持向量机TSVM与v—TSVM均没有 考虑训练样本对最优分类超平面所产生的不同影响,为 向量机进行研究,并且提出了许多改进算法,如Kumaru u-等 提出的最小二乘孪生支持向量机;Peng提出的最小二乘孪 生支持向量超球… 和孪生支持向量回归机- -。由于孪生支 持向量机中的平衡因子C 和C,仅能控制经验风险的比例, 所以Peng“ 又提出了v.TSVM,通过引入参数v 和v,控制 支持向量和间隔错误,但这些改进都没有考虑不同样本点 可能对最终的最优超平面的影响,为此在二分类问题中为 每一个训练样本赋予一个模糊隶属度,以减少其由于样本 的重要性不同而对超平面产生的影响,以此来改进孪生支 持向量机。实验结果表明,与传统的支持向量机相比,模 糊孪生支持向量机不仅分类性能要高,而且训练和测试的 时间明显缩短。 2孪生支持向量机 孪生支持向量机不同于传统的支持向量机,它通过求 解两个规模更小的二次规划问题来获得一对非平行超平 面,以使每个二次规划的目标函数对应一个特定的类,同 时其约束条件受另一类样本的影响,并且在此二次规划问 题的约束中仅出现正类或负类的样本。下面对孪生支持 向量机做一简介。 设矩阵A∈R,I 表示+1类样本,矩阵B∈Rf2 表示 一1类样本,其中,,,和,,分别表示+1类样本数和一1类样 本数。与传统支持向量机仅寻找一个超平面¨’ X+b=0不 同,孪生支持向量机寻找两个非平行的超平面: Tw‘n+b‘n=0和 Tw‘ +b‘ =0 (1) 其中的每一个超平面离一类很近而离另一类尽可能的远, 也就是说,在孪生支持向量机中,正类样本聚集在 W + b‘”:0平面周围,而负类样本聚集在 w +b‘ :0平面周 围。孪生支持向量机可以归结为求解下面两个二次规划 问题: .脚  ̄1Alw(1)--}eb ’l2l+CleT( s.t.一( w‘ ’+ ≥P,一 1>0 (2) l[IBw + I2+c2e( ̄。 s.t.一( w‘ + )≥e1一 ≥0 (3) 其中,C 和C,分别表示正负样本超平面的平衡因子。由于 此,本文在v—TSVM的基础上,通过引入样本所属类别的 重要程度,提出了模糊加权孪生支持向量机(Fuzzy Twin Support Vector Machine,FTSVM)。FTSVM主要通过对 样本进行加权以获得非平行超平面,该二次规划问题如下: ( ,c ) + y。 lf2_VlPl+ 1 s.t.一( ( ,C ) + ’)≥p 一 >0,/P1/>0 (4) arin I f( ,c ) + 。’ 2_v2P2+了-1 ,6 s.t.一( ( ,c ) + )≥p,一 ‘ ≥0 p,≥0 (5) 其中,c=[ 剀,v。,v (0,1]分别表示正负样本超平面的 正则化参数;S ,S,∈(0,1]分别表示正负样本的模糊隶属度 值组成的向量。在此算法中,先分别对正负样本点加权, 之后再寻找两个不平行超平面(即一个正类超平面和一个 负类超平面),其中给定的正类样本点围绕在正类超平面 周围,反之亦然。可以看到,FTSVM将问题转换为求解两 个规模大致为原始样本一半的数据集,故FTSVM的处理 速度高于FSVM。 为简洁起见,在此仅考虑式(4)的对偶问题。为了解 式(4)的优化问题,构造如下的Lagrange函数: 三= ̄I一 IK(A,CT)w +P l 一v P + ∥ 2 一 1十 6c ( ( ,c )w + +p 一 )一 (6) 其中,Lagrange乘子满足。[≥0, ≥0,f≥0。将Lagrange函 数对w ”,b‘”,Pl, ‘ 求偏导并令其等于零,可得如下等式: =K(A,CT) ( ( ,CT)w。 +e1b0))+B a=0 OW . = ( ( ,cT)w(1)+ + T=0 y :_vl+ T —r:0 Gp、 ‘ s2= 一(2-- :0 (7) ’2 经过简单计算,由式(7)可得到如下的等式: [(K( ,Cv) e ̄]tK(A,Cr)Pl儿’',‘ 6‘ ] +[( ( ,CT) P ] =o(8) 设[ ( ,CT)eI]= ,[¨,‘ 6‘ r=U,[ ( ,Cr)P2]=G,则 Computer Engineering and Applications ̄']"算机工程与应用 等式(8)可进一步转化为如下: H HU+G n=0,U=一(日 日)一 G a (9) 4实验结果及分析 为了评估FTSVM的性能,本节选择了UCI 数据库中 的数据集进行了实验,并与孪生支持向量机TSVM,模糊支 持向量机FSVM(Fuzzy Suppo ̄Vector Machine)和传统支 在等式(9)中,矩阵H 日是半正定的,然而在某些情 况下它可能是病态矩阵。为此引入正则化项8,,8>0,其 中J表示单位矩阵,式(9)变为: U:一fH H+ 1 G 6【 (10) 持向量机SVM等数据分类方法进行了比较。 在模糊加权孪生支持向量机的实验中,采用了五折交 叉验证方法,样本的隶属度函数值使用样本类中心法计 算,核函数分别为线性核函数和高斯核函数。表1与表2 分别给出了FTSVM、SVM、FSVM和TSVM方法比较的实 n 将以上得到的等式带入Lagrange函数,则可得到原始 优化问题(6)的对偶问题: min G(H ) G 验结果,各种不同方法对每个数据集分类的最好结果用加 ≤ T… . 其中G=[ B,C )eI】和H= ( ,C )e2]。 对应的KKT互补条件为: T( ( ,CT)w‘ +6‘ +p1一 ‘ ):0T ‘ =, 0, l=0(12) 按照类似的方法,则可得到(7)的对偶问题: arin 1 P(Q Q)一 P (13) s.t.0≤ ≤ ,P ≥V2 其中P= ( ,C )eI】和Q=[ ( ,C )e2]。两个非平行超 平面的参数为[w 6‘。 ] = , =一(Q Q)一 P 。 基于上面的推导,下面给出模糊加权孪生支持向量机 FTSVM算法: 步骤1选择一个核函数 ,计算每个点的隶属度值并 构成向量 1和 2。 步骤2计算H= ( ,C )P1]和G=[ ( ,C )P2]。 步骤3选择参数v ,V,∈(0,1)。 步骤4解二次规划问题(11)和(13)得到两个非平行 超平面的参数 和胄。 步骤5对一个新的测试点 ∈ ,计算它到超平面 XTW(1)+bO)和X w‘。 +b‘ 的垂直距离,分别记为dist+1和distj。 步骤6若dist+.>dist一 ,则将数据点X分配 ̄mJ+l类,否 则,将数据点X分配到一1类。 3.2隶属度函数 在上面的算法中,计算每个样本点的隶属度值,采用 了基于样本点和其类中心的距离方法。首先,分别计算正 负例的类中心为 =∑xi/l+和 一=∑x/l~,卢1,2,…, yf +1 1 j ,。其中, 和,一分别表示正负样本点的样本总数。其次,分 别计算正负类中训练点到其对应类中心的最远距离,并将 其作为正负例的半径。正例的半径为 =f }IIx+一Xill, 而负例的为r一= max…IIx—Xill。最后,根据类均值和半径 { :y 一I} 获得每个样本的模糊隶属度。 l SSI=I I2=1 D一‘一I x: X一二一  一i”I :/(r :+ 瓮 二),若yf=一 (14) 其中, >0用来避免S =0,本文中的 =10~。 粗显示,其中表1中的实验结果是使用线性核函数得到 的,而表2中的实验结果是使用高斯核函数方法得到的。 可以看到,在大多数情况下,FTSVM的性能要优于TSVM、 FSVM和SVM。以上结果表明,在孪生支持向量机中,对 一个给定的数据集计算样本的模糊隶属度是一个不错的 选择。另外,表3给出了FSVM和FTSVM的测试时间。可 以看到,FTSVM比FSVM所用时间要少,其主要原因在于 FTSVM是通过求解两个规模相对更小的二次规划问题得 到的。 表l 使用线性核函数方法对数据集的分类正确率(%) 表2使用高斯核函数方法对数据集的分类正确率(%) 表3运算时间的比较 另外,针对孪生支持向量机TSVM与模糊加权孪生支 李凯,李娜,卢霄霞:一种模糊加权的孪生支持向量机算法 2013,49(4) 165 6 4 2 O 一2 —-2 0 2 4 6—-2 0 2 4 6—.2 0 2 4 6 图1使用TSVM对未加噪声 图2使用TSVM对加噪声 图3使用FTSVM对加噪声 数据的分类结果 数据的分类结果 数据的分类结果 持向量机FTSVM也进行了抗噪性能的研究。首先在平面 [5]Jayadeva,Khemchandni Reshma,Chandra Suresh.Fast and ro— 上随机产生两类样本,分别以“X”和“◇”表示,然后增加三 bust learning though fuzzy linear proximal support vector 个噪声数据点,分别为(一2,一2)(一2,O)(一1,一1)。实验结 machines[J].Neurocomputing,2004,61:401—411. 果如图1至图3所示。其中图1是针对未加噪声数据且使 【6】张猛,付丽华,王高峰.模糊临近支持向量机[J]计算机工程与 用TSVM的分类结果,图2和图3分别表示加噪声数据后 应用,2005,41(5):37—39. TSVM和FTSVM的分类情况。由实验结果可知,FTSVM [7]Mangasarian O L,Wild E W.Multisurface proximal suppo ̄ 几乎不受噪声数据的影响,而TSVM受噪声影响较大,这就 vector machine classiifcation via generalized eigenvalues[J]. 表明样本的模糊隶属值在分类中所起的作用。 IEEE Transactions on Pa ̄ern Analysis and Machine Intelli— gence,2006,28(1):69—74. [8]Khemchandni R,Suresh C.Fuzzy proximal suppo ̄vector clas・ 5结论 siftcation via generalized eigenvalues[J].Pattern Recognition 通过引入样本的模糊隶属度,提出了一种加权孪生支 and Machine Intelligence.2005,3776:360・363. 持向量机,也就是模糊加权孪生支持向量机(FTsVM)。在 [9】Khemchandni R,Suresh C.Twin support vector machines for FTSVM中,通过解两个规模更小的二次规划问题,不仅提 pattern classmcation[J].IEEE Transaction on Pattern Analy— 高了TSVM的分类性能,而且所用时问少于模糊支持向量 sis and Machine Intelligence,2007,29(5):905—910. 机;另外,FTSVM更适宜解交叉超平面这样的分类问题,且 【10]Kumar M A,Gopal M.Least squares twin support vector 抗噪性能优于TSVM方法。 machines for pattern class诳cation[J].Expert Systems with Applications,2009,36(4):7535-7543. 参考文献: 【1 1]Peng Xi ̄un.Least squares twin suppo ̄vector hypersphere [1】Shigeo A,Takuya I.Fuzzy Support Vector machine for multi- (LS-TSVH)for pattern recognition[J].Expert Systems with class problems[C]//European Symposium on Artificial Neural Applications,2010,37(12):8371-8378. Networks,2002:113-118. 【12]Peng Xi ̄un.TSVR:An efifcient twin suppo ̄vector ma— [2]Lin Chun—Fu,Wang Sheng—De.Fuzzy Suppo ̄Vector Machines[J]. chine for regression[J].Neural Networks.2010,23:365-372. IEEE Transactions on Neural Works,2002,13(2):464—471. 【1 3]Peng Xinjun.A V-twin suppo ̄vector machine(V—TSVM)clas— [3]Daisuke T,Shigeo A.Fuzzy least squares support vector ma- sitfer and its geometric algorithms[J].Information Sciences, chines for multiclass problem[J].Neural Networks,2003,16: 2010.180:3863-3875. 785.792. [14]Blake C L,Merz C J.UCI Repository for machine learning 【4]Fung G,Mangasarian O L.Proximal suppo ̄vector machine databases[EB/OL].(1998—01—12).IrvineCA:University of Cal— classifiers[C]//Proc 7th ACM SIFKDD Intl Conf on Knowl・ iofrnia,Department of Information and Computer Sciences. edge Discovery and Data Mining,2001:77—86. http://www.ics.uci.edu/mlearn/MLRepository.htm1. 

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- axer.cn 版权所有 湘ICP备2023022495号-12

违法及侵权请联系:TEL:199 18 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务