Ii V雠。 L。c 恶 矿 囊鞠教簟 i t a E in…i 【本文献信息】谢丽萍,彭波.基于非约束图像参考集匹配的视频人脸识别[J].电视技术,2014,38(7). 基于非约束图像参考集匹配的视频人脸识别 谢丽萍,彭波 (苏州经贸职业技术学院,江苏苏州215009) 【摘要】针对视频人脸识别中系统不能很好地学习人脸图像有效特征的问题,提出了非约束图像参考集匹配方法,通过在两 个图像集之间预先定义参考集构造多个离线的局部模型,并分别与参考集进行匹配,无需考虑所有的成对情况,从而计算出它 们的相似度,有效地将视频人脸识别问题转化成二次规划问题。所提方法的有效性在Honda、MoBo及YouTube三大视频人脸数 据库上进行了验证,实验结果表明,与现有的视频人脸识别方法相比,所提方法取得了更好的识别效果。 【关键词】视频人脸识别;特征提取;非约束;图像参考集匹配 【中图分类号】TN911.73;TP391 【文献标志码】A Video Face Recognition Based on Non-Binding Image Referring Set Matching XIE Liping,PENG Bo LSuzhouImtit ̄e ofTrade&Commerce,Jiangsu Suzhou 215009,China) 【Abstract】For the case that system can not extract effective feature of the face images in Video Face Recognition(VFR),Non—Binding Image Refer- ring Set Matching(NB—LRSM)is proposed by which is in advance between the two image—sets constructing multiple offline local models.It matches with the reference set rather than considering all pairs of cases which used for calculating similarity.This challenge is transformed into a quadratic program— ming issue,which contains the local neighbering relations and consistency of the local geometry.The effectiveness of the proposed method is validated in Honda,MoBo and YouTube video face databases.Expefimen ̄results indicate that proposed method has better recognition accuracy comparing with sev— eral existing video face recognition approaches. 【Key words】video face recognition;feature exrtaction;non—binding;image referring est matching 随着模式识别技术的飞速发展,基于视频的人脸识别 即相互子空间法(MSM),通过各个子空间之间的相互匹 (Video Face Recognition,VFR) -2]越来越受到关注,与静 配来解决图像集之间的匹配问题。文献[12]从子空间至 止的相机相比,摄像机比较常用,并且可以提供更多的信 子空间距离拓展至流形一流形距离(Distance between 息。在VFR中,可以通过从视频序列中选取一组具有代 Manifold and Manifold,MMD),通过最大线性分割 将线 表性的帧(即所谓的关键帧或样本)作为模型建立基于外 性流形分割成多个局部线性模型,然后转化成逐对的子空 貌的系统,然后执行基于静止图像的识别 。显然,这种 间之问的距离。局部线性模型的—个延伸称为流形判别分 方法没有充分利用空间和时间信息。为了利用这些信息, 析,它的提出主要用于求解约束流形之间的距离。这些基 人们开发出一些技术,例如使用隐马尔可夫模型(Hidden 于非线性流形的方法在许多公共的人脸数据库中都取得了 Markov Model,HMM) 等,但这些基于时间模型的方法 很好的效果,然而,目前大多数现存的流形匹配方法都是局 尚未完全显示出其潜能,因为它们仅仅使用全局面部而忽 限于监督或非监督的范围内,需要通过手动标注或者先验 略了局部信息,缺乏面部动态特征的判别能力。 知识获得一些已知的匹配点,而对于大规模的视频数据若 近年来,基于图像分类的图像集相关方法经历了一 通过手动标注的方式来获得匹配点是件非常棘手的事情, 次爆炸性的发展 一 。一些非参数方法试图把图像集表 所以这些方法不适合用于解决视频图像集匹配问题。示为一个线性子空间 或非线性流形 ,这些方法不附 为了解决两个图像集之间的匹配问题,提出了一种 带任何数据分布的假设,并且相对于参数模型来说具有许 非约束图像参考集匹配方法(Non—Binding Image Referring Matching,NB—IRSM),较好地定义一个参考图像集并 多优点。例如,文献[10]应用仿射包模型来解释不可见 Set然后将其与所有 外观并且提出近似最近点法以衡量不同集之间的相似性, 且预先结构化成若干局部线性离线模型,其通过施加稀疏约束使得最近点贴近某些平面。基于这 的图像集匹配,不再使用传统的流形判别分析(Manifold scriminative Analysis,MDA)¨ 中的总体线性变换,实验 种假设,文献[11]提出了从子空间至子空间距离的方法, Di基金项目:苏州市科技计划支撑项目(020142010) 202《电视技术》第38卷第7期(总第434期)I投稿网址http://www.VideoE.crl 篓 结果表明了所提方法的有效性及优越性。 =V 。脚L.c ∑ EN 湖 (5) 1 问题提出 不失一般性,本文连接所有像素的强度,形成特征向 式中:W:{ }是所有点的重组权重矩阵; m行存储 了i—th个点 的所有重组系数,其中∑w =1。具体 量进而表征任意人脸图像。形式上看,两个图像集—— 而言,就是利用最小二乘法描述每个点的局部几何特 目标集(图库集或待测集)和参考集分别由X={ I i= 性,即 1,2,…,m}、Y={Y l i=1,2,…,//,}表示,其中 和j, 表 示样本,m和n分别是 和y中的样本数。目标是寻找 一一∑ ll=0 (6) 显然,方程(6)是近似仿射不变的,所以,可以通过权 个映射函数.厂,即所谓的匹配函数,它将 中任意目标 重矩阵进一步将 公式化,如下面的目标函数所示 图像 映射到y中的参考图像y。将这个问题看作一个 ,优化问题 ^ E^ f(x )一 WTi/(x ̄)l】 EⅣ (7) f=argmin{E +A1E +A2E } 其中 (1) 式中: 表征了图像集 的重组权重矩阵。如果将每个 点的映射关系标记为一个向量,那么函数.厂可以表示为 {0,1}的二维矩阵F 。因此,函数(7)可以改写成如下 的矩阵公式 E =∑g(x , 。 E ),Ⅳ,( ) (2) E =∑c(x EX -)) )) (3) (4) Eg= (J—w )Fl,T l = lFy.r_ l(8) 由于w每一行的和都等于1,所以 可以看作某个 图形的拉普拉斯矩阵,其中,边界可以由 构建,J是一 利用后个邻近图像集的欧式距离矩阵去描述局部几 E =∑∑s(f(x ) E XjE 式中: 表示 的邻近元素;A。和A:是三项的影响平衡 个单位矩阵。 系数。第1项 表征两图像集之间的几何相似度值,其 中g为几何一致性函数,衡量两个局部模型的差异程度。 何特l生,其所有的 !可能的排列都被考虑进匹配成本 !),相比文献[1],该模型是局部仿射不变的,求解映 第2项 反应了外观相似度,其中C为两点之间的匹配 0( 成本函数。第3项E 用于保持平滑性,例如目标集的邻 射F更容易。近关系应当储存在参考集中。 2.2面部匹配开销 2 非约束图像参考集匹配 为了测量姿势、光照、表情及其他因素均互不相同的 两个来自不同图像集的图像的相似度,提出对应的局部空 简要介绍一下所提方法,首先选择一个图像集作为 间最大主角作为相貌匹配成本。给定两个线性子空间Is 和 ,主角0≤0t ≤…≤ 参考集,这样所有的图像集都可以与之进行相互匹配;接 着从图像集中随机选取某人的一个视频序列,该序列具有 足够的帧数,覆盖了不同的变化因素;接着实施一个离线 ,n'/2(r=min(dim(S。),dim(S:)))等同于如下定义 COS( )= m ax m ax ( ) ’, (9) 过程,把参考图像集分割成若干局部线性子空间;然后用 式中:U 和 是标准向量的第 对元素,“\”指子空间的 图像集匹配算法将待测样本、图库样本集和参考集进行匹 减法运算。主角的余弦值称为典型相关值。显然,最大主 配;随后根据参考集的预先分段,对待测集和图库集进行 角越小,子空间越接近。通常情况下,根据最相似模模型 相应的子空间划分,从而使得待测集和图库集的子空间可 选取标准向量的第一对元素之间的距离作为两个子空间 以进行自然匹配;最后,只要计算相应的子空间距离,而不 的距离。是计算成对的子空间,并将这些相似度值送入分类器,完 成人脸的分类与识别。 2.1几何一致性 鉴于上述对于子空间距离的定义,可以根据两个局 部线性子空间的最大主角计算两个图像的相貌匹配成本, 进而推进到邻近的两个图像。式中因为 和Y 分别来自 所以它们邻近的 一J7、w元素可以拓展为子空 引入局部恒定的几何约束用于图像集的匹配,如上 于 和y,面所说,将每个图像集表示为一个流形。为了表征流形中 间 和S 。然后,根据上述子空间距离计算 和J, 和匹 记作C 然后,将图像集 和y的匹配值记作 每个点的领域的几何性质,假设每个 可近似表示为它 配分值,矩阵c={C }。这样,式(3)中E 可以改写为 邻近点的仿射和 投稿网址http://www.VideoE.onl《电视技术》第38卷第7期(, ̄434期)203 II V啦。脚L,c E =tr(CTF) 式中:tr表示矩阵的迹。 2。3平滑约束 篓 (10) 输 :X={ I,…, },Y={Y1,…,Y },,孔≤凡。 输出:二维矩阵F 。 1)分别找出 和y中每个点的 个邻近元素; 2)由式(6)计算出权重矩阵 ; 直观地说,流形应当保持平滑,构成的曲面嵌入更高 维数的欧式空间中,因此,匹配两个图像集时,应当保存其 局部的邻近关系,即 中邻近的两个图像,在y中与之对 应的图像也应当是邻近的。 形式上,定义 中每个图像的第k个邻近关系为矩阵 3)由主角计算出相貌匹配成本C; 4)对于每个点 ∈ 初始化置信区间 =}Y Y ,…, }; 5)While置信区间足够大; 6)由式(14)求解F; 7)移除F中值非常低的点,进而收缩置信区间; 8)End; ( ) :f1,xj是 的第k近元素【0,其他 所以,式(4)中E 可以由以下公式表示 K K (11) 9)根据最终的置信区间,由式(14)求解F; 10)将F量化到矩阵{0,1}; 11)优化目标函数(15); E :∑I lF】,r一 Fl,T ll :∑II LkFl,r lI (12) 式中:L =I—R ,后是局部邻近元素的个数。 2.4高效的解决方案 12)计算各个图像集与参考集之间的欧式距离; 13)k近邻完成识别。 根据以上分析,目标函数(1)可以由如下的带整数约 束的二次规划进行式化 ^ 3 实验 3.1人脸数据库 F=arg m n【1 L F l +Alltr(c F)+ 实验使用了三大通用的视频人脸数据库:Honda/ UCSD E引,A:∑ Fl,T .t.F1 = F∈{0,1} “, 1 ≤£ (13) CMU MoBo[ 和YouTube Ce1ebrities[ 。 Honda/UCSD由Lee等人收集用于视频人脸识别研 究。实验用他们的第1个子集,包含20个目标的59段视 频(对于每个目标至少有2段视频)。每个视频序列包含 不同的姿势和表情变化。使用级联的人脸检测器检测每 式中:变量F是一个m×n的表征图像匹配函数.厂的二维 分配矩阵。F的每一行只包含一个1,这意味着 中每个 点在y中有且仅有一个投影点。式(13)中有3个约束。 第1个约束保证 中所有图像匹配到y中。第2个表示 和y中点的匹配关系要么是“是”要么是“否”。第3个 段视频序列的人脸。然后,将所有的人脸调成20 X20像 素的灰度图像。视频的长度从12帧到645帧不等。为了 消除灯光影响,采用直均衡化的方图对图像进行预处理。 CMU MoBo数据库起初创建是为了用于人的姿势鉴 定。该数据库包括了24个不同目标的96个序列,即每个 目标4段视频。每个视频都是从跑步机上行走时抓拍的, 约束表征了 中最多有z个图像可以匹配到y中相同的 图像。 式(13)是一个带整数约束的二次目标函数,这完全 是NP问题,不能有效求解。放开整数约束,同时将目标 函数简化如下 ^ 有300帧。利用处理Honda数据库相同的方法去获得 30 X30像素的人脸图像。 YouTube用于在真实世界中进行跟踪和识别。该数 F=arg喇n【 1ll +Altr(CTF) (14) S.t.F/ =1 】,F≥0,F 1 l≤z 据集包含47位明星(男演员,女演员和政治家)的1 910 式中: 可以由SVD求出,方程如下 段视频序列。每个序列数百帧,低分辨率和高压缩率。与 uTu=( )~L+A ∑( ) L (15) Honda和MoBo数据库相比,该数据库更加具有挑战性, 因为噪声因素以及姿势,光照和表隋的复杂变化。人脸图 本文利用MATLAB工具箱,采用“内点”法¨州去优化 像同上调整为30 X30像素。 目标函数(14)。非约束图像集匹配的整个算法流程总结 3.2实验结果 在算法1中,为了对算法进行加速,利用置信区间收缩 法 去近似求解凸面优化问题。 算法1:非约束图像集匹配 实验首先进行图像匹配实验去验证所提的匹配方法 的有效性,接着,将该匹配方法应用到基于视频的人脸识 别中,用各种姿态执行人脸图像匹配,随机选取50个目 204《电视技术》第38卷第7期(, ̄434期)I投稿网址http://www.VideoE.crl V 。脚 恶潮 标,对于每个目标,选取7个姿势,面侧角(间隔15。)的不 几何相似度,而没有相貌匹配成本,所提方法具有更高的 同表情和光照的83张人脸图像。这些图像裁剪至20×30 精度,可能是因为同时使用了相貌匹配成本和几何结构相 像素来模拟低质量的视频人脸图像。 似度的原因。此外,该方法仅需3 S就可以完成2个图像 所提方法主要的参数设置:1)控制参数:A。=2,A = 集之间的匹配,这比文献[7]的方法快很多。 0.1;2)当对局部线性模型的灰度特征进行投影时,对应于 3.3比较与分析 3个数据库,PCA的维数分别设定为70,60,r80;3)LDA的 这部分将所提方法与最近几年提出的各种图像集方 维数设置为分类数减1。实验利用欧式距离计算投影后 法进行了比较,包括线性判别分析方法(LDA) 、相互子 两个相关线性模型的相似度,最小值就是最终图像集的距 空间法(MSM)u ,判别典型相关性分析法(DDC)¨ ,流 离。r的值取0或1,近邻数 取不同的值(k=1,3,4,…, 形一流形距离法(MMD)u ,流形判别分析法(MDA)¨ , lo),进行了大量的实验,在3个视频人脸数据库上的实验 以及稀疏近似邻近点法(SANP)¨…。除了LDA方法,这 结果图1、图2所示。 里没有提供较多的基于样本方法的实验结果,因为文献 [5,7,8,11]都已表明基于图像集方法的实验效果均比基 于样本的方法好。对于3个不同的人脸数据库,所有参与 比较的方法的最佳识别率如表1所示。 表1 不同方法的匹配样本识别率 % Q麟 Q‘蝴l 啷 一 啦 Q瑚 一 图2 r=0时所提方法在各个人脸库上的识别率 从图1、图2中可以看出,随着近邻数的增加,r:1 的情况下,所提方法在3个视频人脸数据库上取得的最佳 识别率分别为98.9%、95.0%、74.6%;r:0的情况下,所 提方法在3个视频人脸数据库上取得的最佳识别率分别 4 总结 为97.2%,93.8%,72.5%。当r=1时,最近的姿势也视 为是一次正确的匹配,而r=0时,表示仅仅当计算对应的 姿势时才是正确的匹配。同时,r:1时,该方法的最高识 别率可达98.90%,这意味着几乎所有的匹配结果最多在 ±10。的姿势偏差内。值得指出的是,以前的研究仅使用 投稿网址htlp:/IvmNw.VideoE.cnl《电视技术》第38卷第7期(总第434期)205 II:,V DEo APPLICAT视频应用与工程 ION&PROJECT 的,并且效果也是非常稳定的。 以后会将所提的方法运用到其他视频人脸数据库中 进行测试,改变不同参数的初始设置及变化,通过实验进 一●秘援蠢 a in“ring 抽取算法[J].南京理工大学学报:自然科学版,2012,36(6): 915-918. [9]XIE z,LIU G,FANG Z.Face recognition based on combination of human erpception and local binary pattern[J].Lecture Notes in Computer Sci— ence,2012,72(2):365-373. 步提高识别率,并且改善识别率的效率。 [1O]李民,李世华,李小文,乐翔.非局部联合稀疏近似的超分辨率重建 参考文献: [1]苏育挺,王静,冀中.基于仿射包和伪Zernike矩的视频人脸检索 [J】.计算机工程与应用,2012,48(34):179—183. [2]陈兆华,徐汀荣,韩志远.基于运动信息的快速局部遮挡人脸检测 算[J].电子与信息学报,2011,33(6):1407—1412. [1 1]AGGARWAL C C.High-Dimensional outlier detcteion:the subspace method[M].New York:Springer,2013:135—167. [12]WANG R,SHAN s,CHEN X,et a1.Manifold—maniofld distance and its application to face recognition with image sets[J].IEEE Trans.Pat— tern Analysis and Machine Intelligence,2012,21(10):4466--4479. [J].计算机应用与软件,2013,30(1):63-66. [3]ZHANG Z,WANG J,ZHAN HJ Adaptive maniofld learning[J].IEEE Trans.Pattern Analysis and Machine Intelligence,2012,34(1): 131—137. [13]WANG R,SHAN S,CHEN X,et a1.Maximal linear embedding for di— mensionality reduction[J].IEEE Trans.Pattern Analysis and Machine Intelligence,2011,33(9):1776-1792. [4]王志超,刘惠义.一种基于隐马尔可夫模型的人脸识别方法[J].计 算机应用与软件,2013,30(2):304—307. [5]文乔龙,万遂人,徐双.Fisher准则和正则化水平集方法分割噪声图 像[J].计算机研究与发展,2012,49(6):1339—1347. [6]CONNOLLY J F,GRANGER E,MAMBOURIN R.An adaptive classifi・ cation system for video—based face recognition[J].Information Sciences, 2012,192(1):50-70. [14]VERBEEK J J.Learning nonlinear image manifolds by global alinmentg of local linear models『J].IEEE Trans.Pattern Analysis and Machine Intelligence,2006,28(8):1236-1250. [15]侯书东,孙权森,夏德深.一种监督的局部保持典型相关分析算法 [J].模式识别与人工智能,2012,25(1):143—149. ◇ [7]HAFIZ F,SHAFER A A,MUSTAFA Y M.Face recognition from single sample per person by learning of generic discriminant vectors[J].Proear- dia Engineering,2012,45(3):465--472. 作者简介: 谢丽萍(1979一),女,硕士,讲师,主要研究领域为模式识别、人工 智能; 彭波(1983一),硕士,工程师,主要研究领域为计算机网络技术。 [8]范燕,於东军,宋晓宁,等.镜像基函数下过渡投影子空间人脸特征 责任编辑:任健男 收稿日期:013-06-19 2(上接第185页) 参考文献: [1]张壮暑,蔡晓东,张学敏.监控视频中运动目标识别分类系统研究 [J].电视技术,2012,36(23):165—167. 【2]张建飞,陈树越,刘会明,等.基于支持向量机的交通视频人车识别研 究[J].电视技术,011,35(15):1-3.2 [3]VIOLA P,JONES M J.Robust real—time face detection[J].Internation— la Journal of Computer Vision,2004,57(2):137—154. sification[J].IEEE Trans.Pattern Ana1.Mach.Intel1.,2006,28(】1): 1863—1868. [9]WHLER C,ANLAUF J.An adaptable time—delay neural—network algo— rithm for image sequence analysis[J].IEEE Trans.Neurl Netw.,a 1999,10(6):1531-1536. [1O]TAYLOR J,CRISTIANINI N.Suppo ̄vector machines and other Kernel—based learning methods[M].Cambridge,U.K.:Cambridge U— niversity Press,2000. [4]AMIT Y,GEMAN D,FAN X.A coarse-to-fine strategy ofr multiclass shape detection[J].IEEE Trans.Pattern Analysis and Machine Intelli— gence,2004,26(12):1606-1621. [11]KYRKI V,KAMARAINEN J K.Simple Gabor feature space for invari— nta object recognition[J].Pattern Recognition Lett.,2004,25(3): 311—318. [5]DATAL N,TRIGGS B.Histograms of oriented gradients ofr human detec— tion[C]//Prc.IEEE Confereence on Computer Vision Pattern Recogni— tion.San Diego:IEEE Press,2005:886-893. [12]KRUGER V,SOMMER G.Gabor wavelet networks for eficientf the a_ dopts estimation[J].Image Vision Computer,2002,20(9—10): 665—672. [6]TUZEL 0,PORIKLI F,MEER P.Human detection via elassificationon Riemannian manifolds[C]//Prc.IeEEE Conference on Vision Pattern Recognition.Minneapolis:IEEE Press.2007:1-8. [13]ZHANG Baochang,SHAN Shiguang.Histogram of Gabor phase patterns (HGPP):a novel object representation approach for face rcogenition [7]ZHU Q,AVIDAN S,YEH M C,et a1.Fast human detection using a eas— eade of histograms of oriented gradients[C]//Proc.IEEE Conference on Computer Vision Pattern Recognition.[s.1.]:IEEE Press,2006: 1491—1498. [J].Trnsa.Image Processing,2007,16(1):57_59. ◇ 作者简介: 薛茹(1974一),女,博士生,副教授,主研交通视频处理。 收稿日期:2013--06-22 [8]MUNDER S,GAVRILA D M.An experimental study on pedestrin clas—a 责任编辑:任健男 206《电视技术》第:38卷第7期(总第434期)l投稿网址http://www.VideoE.crl