您好,欢迎来到尔游网。
搜索
您的当前位置:首页基于语义构词的汉语词语语义相似度计算

基于语义构词的汉语词语语义相似度计算

来源:尔游网
第31卷第1期 中文信息学报 VoI.31,No.1 2017年1月 J OURNAL OF CHINESE INFORMATION PROCESSING Jan.,2o17 文章编号:1003-0077(2011)00—0094—08 基于语义构词的汉语词语语义相似度计算 康司辰 。,刘扬。 (1.北京大学中国语言文学系,北京100871; 2.北京大学计算语言学研究所,北京100871; 3.北京大学计算语言教育部重点实验室,北京100871) 摘 要:汉语词语语义相似度计算,在中文信息处理的多种应用中扮演至关重要的角色。基于汉语字本位的思想, 我们采用词类、构词结构、语素义等汉语语义构词知识,以“语素概念”为基础,计算汉语词语语义相似度。这种词 义知识表示简单、直观、易于拓展,计算模型简洁、易懂,采用了尽可能少的特征和参数。实验表明,该文方法在典 型“取样词对”上的表现突出,其数值更符合人类的感性认知,且在全局数据上也表现出了合理的分布规律。 关键词:词语语义相似度计算;语义构词;词义知识表示;语素概念 中图分类号:TP391 文献标识码:A Semantic Word—formation Based Chinese Word Similarity Computing KANG Sichen ~.LIU Yang。’ (1.Department of Chinese Language and Literature,Peking University,Beijing 100871,China; 2.Institute of Computational I.inguistics,Peking University,Beijing 100871,China; 3.Key Laboratory of Computational I inguistic(Ministry of Education),Peking University,Beijing 100871,China) Abstract:Chinese word similarity computing plays an important role in the Chinese information processing.Based on the notion of character—orientation,Chinese semantic word—formation knowledge,including word POS,word—forma— tion pattern and morphemic concepts,is employed tO compute Chinese word similarity.This lexical knowledge rep resentation is simple,intuitive and easy tO expand and the model is straight—forward,with characteristics and param eters adopted as less as possible.Experimental results show that the approach is promising for the typical sampling word pair.Also,the numerical values of similarity are more in line with human cognition and present a reasonable distribution of the global data. Key words:Chinese word similarity computing;Chinese semantic word—formation;lexical knowledge representation; morphemic concepts 类利用语料中的上下文特征,并依据不同的算法计 引言 算相似度。第一类方法_l 采用的知识包括《同义词 词林》、《知网》、知识图、概念图和百度百科等,其方 在自然语言处理领域中,词语语义相似度计算 法往往依赖于特定的词义知识表示,可称为基于知 长久以来都具有很高的理论和应用价值,对词义消 识的方法;第二类方法口 “ 对语料进行上下文分 歧、查询识别、机器翻译等应用起着尤为重要的 析,提取词向量做相似度计算,可称为基于语料的 作用。 方法。 在此前研究中,汉语词语语义相似度的计算方 目前,这两类方法都存在问题:基于知识的方 法可归为两类,一类利用语言知识库中的知识;另一 法,大体以理性方法为主,偏重考察“取样词对”语义 收稿日期:2016 09 18定稿日期:2016—10—19 基金项目:国家社科基金(16BYY137);国家重点基础研究发展计划资助项目(2014CB340504);国家社科基金 (12&ZD119) 1期 康司辰等:基于语义构词的汉语词语语义相似度计算 95 相似度的合理性,主要通过增加参数、调节公式中的 系数等手段,力图改善限定取样数据的计算结果,这 导致相似度计算的方法逐渐趋于繁琐;基于语料的 方法,大体以经验方法为主,主要通过模型选取、特 征优化、降噪处理等手段,以获得更理想的全局数据 计算结果,其优点是词语的覆盖面广,但在“取样词 对”上的表现往往不佳。 基于以上分析,我们希望建立一套新的汉语词 义知识表示及词语语义相似度计算方法,并满足如 下特征:在词义知识表示方面,符合人类对汉语语 言的一般认知,其表达形式也更加直观、有效;此外, 建立在该知识表示上的语义相似度计算方法简洁、 易懂,能够在“取样词对”上表现优异,同时,在全局 数据上也表现出合理的分布规律。 众所周知,汉语语言以字为自然单位,苏宝 荣[1 等多位语言学家阐述了汉语的构词结构对词 义理解至关重要的观点,这表明从构词结构出发,进 而表达词义的手段是可行的;此外,苑春法、黄昌 宁Ll ]的研究也证实“只有很少一部分的语素在构词 时意义发生了变化”,而绝大多数词义可由语素义直 接导出。结合以上观点,我们认为,以汉语的语义构 词(包含构词结构、语素义等知识)作词义知识表示 是有可靠的语言学依据的,对词义研究和相关计算 有可能产生重要价值和积极意义。这样一来,语义 相似度计算也有了更为直观的知识表示,而其算法 有可能趋于简化并表现出好的特性。 2 汉语的语义构词知识表示与获取 凡是对词的理解有意义的构词知识,在中文信 息处理应用中都是有用的。因此,本文所讲的构词 知识,涵盖词类、构词结构、语素义等,是广义的语义 构词知识。我们以这些知识为基础,进行汉语词语 语义相似度计算并做评估。 课题组研发多年并计划推出的北京大学《汉语 概念词典》(以下简称《概念词典》,英文名称The Chinese Object—Oriented Lexicon,C00L)在生成词 库理论(GLT理论)_l 、面向对象思想(OO思 想)E ]、WordNet理论_l 等观点指导下,以《现代汉 语词典(第5版)》(以下简称《现汉》)刻画的汉语的 语素及语素义为依据,采用“同义语素集”来表征“语 素概念”并建立“语素概念体系”;在此基础上,详尽 描述汉语词的构词结构,并实现构词结构下的构词 成分(即语素)对“语素概念体系”中的“语素概念”的 严格绑定,以此来诱导和表达汉语词义,并提供多种 应用程序接口。 《概念词典》中包含的这些语义构词知识,构成 本文工作的一个数据基础。 2.1词类知识 《概念词典》为收录的词都标注了词类,其中, 51 454个二字词的情况如表1所示。 表1《概念词典》中二宇词词类统计表 词类 数量 比率/ 例词 名词 25 720 49.99 丈夫 动词 18 679 36.3O 上升 形容词 5 543 10.77 严峻 副词 9O5 1.76 临时 数词 57 O.11 好多 量词 9O 0.17 公尺 介词 36 0.07 为了 代词 114 O.22 咱们 助词 23 O.O4 不得 叹词 1O 0.02 呜呼 拟声词 ll5 O.22 丘丘 连词 162 O.31 不但 合计 51 454 lOO.OO 2・2构词结构知识 在语言学界有两种主流的构词结构体系,一种 注重表达构词语素间的语义关系(如主体、客体等); 而另一种体系注重表达构词语素间的语法关系(如 主谓、述宾等)。相对而言,后一种构词体系更为精 简,与句法结构有天然的相似性,相关研究更为成 熟,有利于词语相似度计算,本研究采用这种构词体 系。实际上,由于后续要求构词成分对“语素概念体 系”中的“语素概念”严格绑定,我们获得的依然是广 义的语义构词知识。 我们参考杨梅 0_和北京大学中文系郭锐教授 对构词结构的研究成果,构建了基于语法的构词体 系,并为《概念词典》中所有二字词按义项区分标注 了构词结构,共计52 108个。为保证构词结构知识 的可靠性,请三位专家对同一词项进行标注,两人以 上标注结果相同的一致率为93.46%。标注结果的 具体情况见表2。 96 中文信息学报 表2《概念词典》二字词构词结构统计表 体”,在本文中,为方便起见,汉语语素暂且限定 为一个汉字。借鉴WordNet理论,课题组成员陆 构词结构 主谓 连谓 数量 524 l 7O9 比率/ 1.O1 3.28 例词 年轻 进攻 顾婧_2 在其硕士论文中用“语素特征”(现在称 其为“语素概念”)来称谓汉语中可计算的最小意 义单元,并采用“同义语素集”的形式来加以表 示,该集合中的元素为具有相同或基本相同意义 数联合 述宾 述补 定中 . 11 414 8 141 63O 19 581 21.9O l5.62 1.21 37.58 丰满 选材 提高 红旗‘ 量类(即语素义)的那些语素,其中的每个语素都携有 独特的“语素义编码”。例如,语素“选”有多个语 素义,其中的一个语素义的“语素义编码”为“选1 状中 介宾 4 2l5 l57 8.O9 0.3O 热爱 从小 04—01”,这表明:它是该单字在词典中的第1 次条目出现(即“选1”),该条目共有四个义项 (即“选104”),当前为第一个义项(即“选1—04~ 重叠 名量 31O 78 O.59 O.15 哥哥 纸张 01”)。 目前,对《现汉》中全部语素所表达的20 175 数量 方位 复量 56 189 2O O.1l O.36 O.O4 一此 野外 场次 个语素义,我们按释义计算相似度,形成初步的 “同义语素集”,并经反复的人_[校对、核对,获得 了5 1l3个“语素概念”。在这些“语素概念”之间, —...前附加 后附加 单纯词 698 2 3O8 2 078 1.34 4.43 3.99 老虎 忘却 克隆 我们进一步构建了初步的上、下位语义关系,形成 了一个树状结构的“语素概念体系”。在后续的知 识表示中,如果确定了特定语素的语素义,携有了 感知类“语素义编码”,就意味着该特定语素在语素概念 体系中绑定了一个“语素概念”,并接受该体系的 意义表达和约束。 以表达“选择、挑选”意义的动语素“语素概念” 合计 52 lO8 100.00 需要说明的是,该构词体系可以方便地拓展到 多字词的情形。以“化学反应”为例,“化学反应”为 定中结构,构词成分分别为“化学”、“反应”;“化学” 为定中结构,构词成分分别为“化”、“学”;“反应”为 后附加结构,构词成分分别为“反”、“应”。 2.3语素义知识 X为例,X一{刷3一Ol—O1,抡10101,拔1O8O3, 拣1—01—01,择1—02一O1,择2~0201,拶b 1—02一O1,擢 10202,调4一O2—02,选1—04O1,遴10101,铨1— 一0201},在“语素概念体系”中,其所处的“语素概念” 位置如图1所示。 语言学上的“语素”指的是“最小的音义结合 实词类 差三三 头部动作 四肢动作 表达“选择、挑选”意义的“语素概念”x 躯体动作L_…… 图1树状结构的“语素概念体系”示例 在标注《概念词典》中所有二字词的构词结构 后,我们继续为二字词的前、后语素标注其在《现汉》 中的语素义,并按其语素义与对应的“语素义编码” 这样一来,在构词结构因素之下,进一步地,每 个语素义拥有更丰富的、便于交流和计算的意义形 式。每个语素义携有唯一的“语素义编码”,每个“语 素义编码”对应唯一的“语素概念”,每个“语素概念” 在“语素概念体系”中拥有唯一确定的位置。这些位 挂钩。于是,二字词的前、后语素与它们在“语素概 念体系”中的“语素概念”就建立了严格的绑定关系。 1期 康司辰等:基于语义构词的汉语词语语义相似度计算 97 置表达了“语素概念”间的距离,而词语概念(即词 义)之间的距离与此相关,这为词语语义相似度的计 3.1.2构词结构知识的利用 汉语词的构词结构反映了在不同构词结构 算带来极大方便。 下,各语素对于整体词义的不同贡献。例如,在联 合结构中,各语素对整体词义的贡献基本相同,而 在定中结构中,中心语成分对整体词义的贡献更 大一些。我们用贡献系数衡量不同结构下的各语 素对于整体词义的不同贡献,在本文中,其取值情 3汉语词语语义相似度计算模型 3.1基本思路 况见表4。该取值采用经验值,可依据应用需求灵 从本质上讲,词语语义相似度是词语概念(即词 义)间的距离的描述。在本研究中,汉语词表达的词 语概念由语义构词知识加以表示,包括词类知识、构 词结构知识、语素义知识等三项内容。其中,词类知 识(part of speech,简称POS)代表了词语概念跨词 类的惩罚代价,构词结构知识(word—formation pat— tern,简称WFP)、语素义知识(morpheme know- ledge,简称MK)则表达了语素义对词语概念(即词 义)的贡献情况。 因此,对于词对A、B,有如下定义。 定义1:词语概念距离D(A,B)定义为词对A、 B的三元关系:D(A,B)一R<POS,WFP,MK>。 定义2:词语语义相似度sier(A,B)定义为词语 概念距离D(A,B)的函数:sim(A,B)一.厂(D(A,B))。 3.1.1词类知识的利用 此前关于词语语义相似度的研究,基于方便考 虑,多数只考察相同词类的情形,我们希望推广到不 同词类上去,并认为,在词语概念的内涵保持基本不 变的情况下,不同词类的词语概念距离应该大于相 同词类的词语概念距离。 我们采用距离惩罚方式调整词语概念距离,进 而调整词语相似度计算结果。在本研究中,系数取 值遵循的一般思路为:实词与虚词之间的惩罚系数 相对较高,虚词之间的惩罚系数大致相同;实词之 中,体词和谓词之间的惩罚系数相对较高,而体词与 体词之间、谓词与谓词之间的惩罚系数相对较低。 在本文中,动词、名词、形容词等开放词类之间 的惩罚系数见表3。该取值采用经验值,可依应用 需求灵活调整。其他词类的情况不再赘述。 表3开放词类之间的惩罚系数 词类1 词类2 惩罚系数 名词 动词 1.2 动词 形容词 1.1 名词 形容词 1.2 活调整。 表4贡献系数取值情况 构词结构 前语素贡献系数 后语素贡献系数 联合 O.5 0.5 定中 O.3 0.7 名量 O.4 O.6 数量 O.4 O.6 方位 0.4 , O.6 状中 O.3 O.7 连谓 0.5 O.5 复量 O.5 O.5 介宾 O.4 O.6 述宾 O.6 O.4 述补 0.7 0.3 主谓 0.4 0.6 前附加 O.9 O.1 后附加 O.1 O.9 重叠 O.5 O.5 该系数取值同样可拓展至多字词。例如,对于 前面提及的多字词“化学反应”,利用迭代方法,即可 求得该词中各语素的贡献系数,分别为:“化”0.09 (且p 0.3*0.3)、“学”0.21(辰口0.3*0.7)、“反”0.07 (且口0.7*0.1)、“应”0.63(且Ⅱ0.7*0.9)。 3.1.3语素义知识的利用 在树状结构的“语素概念体系”中,考虑上位概 念表达的语义颗粒度大于下位概念的因素,在计算 时,本文采取边加权的方式计算路径长度。目前, “语素概念体系”的最大深度为十层,约定根节点下 的边为第一层,我们对层数为C的边的权值叫设定 如下:础一1.O+(10一c)*0.1,各层的边的权值如 表5所示。该取值采用经验值,可依应用需求灵活 调整。 98 中文信息学报 表5各层的边的权值设定 层数 权值 层数 权值 1 1.9 6 l_4 2 1.8 7 1.3 3 1.7 8 1.2 4 1.6 9 1.1 5 1.5 1O 1.O 此外,在语素义不能明确指定的情况下,语素存 在多义的可能性,在《概念词典》中有多个“语素概 念”与之绑定,相应的,在“语素概念体系”中有多个 位置与之对应。在计算语义相似度时,按照惯例原 则,我们取能够促成“语素概念”a、b之间保持最短 距离的位置P 、P 。 3.2语义相似度算法描述 形式上,设二字词A—“ n。,二字词B—b b。,则 词对A、B的词语语义相似度计算方法如下所述。 1.计算语素对啦、6 之间的语素概念距离d(a ,6,) 对于语素集合E一{n ,a ,b ,b }中的语素e,在 《概念词典》中取该语素的不同语素义对应的所有“语 素概念”,这些“语素概念”在“语素概念体系”中的全 部位置构成位置集合P 一{P P ……,P g ∈E}, 其中,?Tt是语素e在“语素概念体系”中对应的“语素 概念”个数。在该表示下,语素对a 、bj之间的语素概 念距离d(a ,bj),即为语素n 的位置集合P。 和语素 6 的位置集合P 之间构成的多条路径中的最短路径 的路径长度l <P …一,P >l 。 简而言之,语素概念距离d( ,6 ):l V< …“,PI,,>I ===I < ……, >l,其中 … 为能够促成‘‘‘语素概念” 、6,之间保持最短 距离的位置。 2.构造词对A、B之间的贡献系数集合C一 {C11,Cl 2,C2l,c2 2} 记 为词A在其构词结构下的前、后语 素贡献系数,m m 为词B在其构词结构下的前、 后语素贡献系数,它们的取值见表4中的约定。在 该表示下,f11一 l* 6l,cl2= 1*D't c21一 。2* C22= 2* 这些取值下的C1 1、C12、c21、 构 成集合C一{f】】,C C C22}。 3.计算词对A、B之间的词语概念距离D(A,/3) 原则上,D(A,B)是d(“ ,b,)、C、a等参数的函 数,即D(A,B)=f(d(n ,b,),C, ),其中,d(n ,b,) 由步骤1得到,C由步骤2得到, 为词类惩罚系数, 见表3中的约定。 在本文中,f(d(n ,b ),C,a)采用如式(1)所示 的函数计算。 D(A,B)一f(d(a ,b,),C,a) 一a*∑ . (ai b )*c ‘ 4.计算词对A、B的语义相似度Sier(A,B) 考虑D(A,B)的分布特性,约定为式(2)。 Sim(A,B)===f(d(A,B)) r 1, (A,13)一0 一<l 1 ,d(A,B)>0 (2) 其中,n用于调整函数的整体趋势,C用于调整 函数的对称中心,本文中取n===0.5,f===一15。 需要说明的是:在本计算模型中,词语概念距 离转化为语义相似度的公式采用logistic曲线。其 原因在于,词语概念距离在整体上基本满足正态分 布,考虑数据稠密程度,logistic曲线能使距离分布 密集区的函数取值得到平滑。 此外,本计算模型具有一般性,可以方便地拓展 至汉语多字词的计算。对于多字语A、B,记语素集 合E={n ,……,n ,b ,……,b },而贡献系数集合 C一{Cl1,Cl2,……,Cl ,……,C ……,Cmn)可由构词 结构贡献系数迭代得到,再依照D(A,13)一f(d(n , b,),C,a)计算Sim(A,B)一f(D(A,t3))。 4实验结果与数据分析 4.1关于评价方法的讨论 之前的研究与评价标准,往往倾向于挑选一些 同类词的“取样词对”,我们认为这不具有随机性,也 缺乏客观性,相似度计算的需求可以存在于任意词 对之间,与是否属于同类词无关。 此外,对于汉语词语语义相似度计算方法的评 价,实际上应包含两个方面,即语义相似度取值在局 部数据上的表现优劣,以及,语义相似度在全局数据 上的分布规律是否合理。只有这两部分均表现优越 的方法,才能在实际应用中获得有效采用。对于特 定方法,如果只满足于“取样词对”上的相似度结果 优良,而不满足全局数据上的分布合理,可以认为该 方法存在对“取样词对”过拟合的倾向;反之,如果保 持了全局数据上的分布规律,而在“取样词对”上的 计算结果欠佳,可以认为该方法不具有典型性和精 1期 康司辰等:基于语义构词的汉语词语语义相似度计算 99 确性,同样不足为取。 4.2与基于知识的其他方法比较 对于该类方法,我们选取刘群、刘素建__1。。。最早 基于《知网2000》的计算结果(方法1、方法2),以及 最近刘杰_7 分别基于刘群、李素建方法的计算结果 (方法3、方法4),刘杰另外给出了基于《知网2008》 基于《知网》计算汉语词语语义相似度的研究很 多,往往能达到局部最优,如刘杰_7 所言,这类方法 的李素建、刘群计算结果(方法5、方法6),方法7为 本文方法的计算结果。这些计算结果的比较见 使得取样词对的相似度更为合适,从而接近人类的 主观判断。 表5,其中,表中Null代表未能获得相关数据。 表5“取样词对”相似度比较 词语1 男人 男人 男人 男人 词语2 女人 父亲 母亲 苹果 方法1 O.668 1.ooo O.668 o.004 方法2 o.833 1.ooo o.833 O.166 方法3 O.861 1.ooo O.861 o.171 方法4 O.9lO o.899 O.89O o.470 方法5 0.684 0.646 O.569 O.029 方法6 o.692 O.654 o.576 o.o67 方法7 O.716 O.7O1 o.7o1 O.442 男人 责任 O.OO5 O.OO1 O.126 O.283 O.O21 o.040 0.281 男人 旅程 高兴 旅行 O.O24 Nu1l o.o13 O.O74 NuU o.ooo Nul1 O.09O Nul1 o.585 Nu1l O.737 O.O96 0.O73 战争 爱情 十分 灵敏 打仗 恋爱 特别 敏捷 Nun Null Null Null o.040 o.044 0.624 O.881 o.ooo o.ooo O.624 0.881 O.225 o.7o0 O.75O 0.400 O.552 0.450 0.044 O.O21 o.732 o.737 O.75O 0.400 o.746 O.494 O.8O7 0.782 美丽 动人 Null 1.000 1.000 O.5OO 0.O29 O.5OO O.O45 不难发现,在“男人”与其他词的相似度计算中, 无论哪种方法,都在“人类”和“非人类”之间的关系 等词语具有相同定义:“attribute f属性,effect f效 用, ̄eventl事件”,则它们之间的相似度只能为1, 但是其中“功效、胜负、盈亏”等词语在感觉上是不应 该相似的。这是用《知网》进行相似度计算需要解决 的一个问题,其他不再赘述。 4.3与基于语料的方法比较 上表现良好,“男人”和“女人、父亲、母亲”的相似度 高,而和“苹果、责任、高兴”的相似度低。但是,对于 “非人类”的“苹果、责任、高兴”,由“生物”和“非生 物”特征来看,“男人”和“苹果”应该更相似,在本文 方法中,该特征得以体现。对于“旅行”和“旅程”,我 们认为体现得更多的是相关性,而不是相似性,所以 在基于语料的方法中,我们采用时间最近、效果 较好的王石方法口 进行对比,该方法覆盖所有词语, 在跨词类的惩罚系数下,该相似度得以降低。本文 方法对“美丽”和“动人”的计算结果不佳,这是因为 “动人”在语义构词中发生了意义转变,对于这种情 并且对较大的词表进行了评估。王石方法的相似度 取值范围是{一1)U[O,1],对于“一1”取值情形,文献 未给解释。王石对词语相似度做了四次迭代计算,我 们取效果最好的第二次迭代结果。由于这类方法相 似度取值普遍偏低,我们只能从相似度取值排序的角 度来进行分析。名词词对相似度比较的情况如表6。 表6名词词对相似度比较 词语1 宝石 珠宝 正午 况,本文方法目前不做进一步的处理。但如苑春法、 黄昌宁口 ]所言,汉语中的这种情况极少,所占比例 少于2 ,我们在构词结构标注中采取了较严格的 方案,发现这类词占比为4 。此外,本文方法在 “战争、打仗”、“十分、特别”、“灵敏、敏捷”等词对上 的表现突出,计算结果优于其余方法。 此外,我们注意到,受《知网》数据,一些词 词语2 珠宝 正午 中午 本文方法 O.815 O.353 0.936 王石方法 O.367 O.OO7 O.383 语的相似度无论如何调整算法,都是无法优化的。 例如,对于具有相同概念定义的词语,如“成败、成 效、得失、功利、功效、胜败、胜负、输赢、损益、盈亏” 1O0 中文信息学报 续表 续表 词语I 男人 男人 词语2 母亲 工作 本文方法 o.7O1 O.38O 王石方法 0.165 0.031 词语i 发明 停留 衰老 词语2 创造 运动 告诉 本文方法 0.905 0.955 O.0O6 王石方法 0.017 0.000 0.000 森林 苹果 森林 林地 香蕉 手机 O.5O1 0.788 0.688 O.177 0.255 在动词词对上,本文方法优于王石方法(表7)。 0.105 王石方法中的很多动词词对缺乏有效的取值,本文 医院 诊所 O.624 O.191 汽车 轿车 O.977 0.383 汽车 飞机 O.814 0.2O5 汽车 医院 O.459 0.I95 手机 电话 0.830 O.370 电话 电视 O.41O O.167 椅子 凳子 O.972 O.453 房子 桌子 0.880 O.13O 电影 邮票 0.844 O.O72 在名词词对相似度取值排序上,王石方法相似 度高的词对从高到低为:“椅子、凳子”、“汽车、轿 车”、“正午、中午”,本文方法相似度高的词对从高到 低为:“汽车、轿车”、“椅子、凳子”、“正午、中午”,结 果基本一致,对于词对“椅子、凳子”和“汽车、轿车” 相似度高低的判断,不同人有不同理解。王石方法 相似度较低的词对从低到高为:“珠宝、正午”、“男 人、工作”、“电影、邮票”,本文方法相似度低的词对 从低到高为:“珠宝、正午”、“男人、工作”、“电话、电 视”,结果基本一致。 表7动词词对相似度比较 词语I 词语2 本文方法 王石方法 抚摸 触摸 O.968 ~i.000 鞠躬 微笑 O.883 ~1.000 抚摸 担心 0.586 ~1.000 忧虑 担心 O.112 O.233 担心 放心 O.592 O.179 鞠躬 听见 O.962 一I.000 体会 感觉 0.848 O.215 购买 销售 0.987 O.162 考虑 思考 0.980 O.285 思考 问候 O.963 一I.000 方法不存在这类问题。 表8形容词词对相似度比较 词语i 词语2 本文方法 王石方法 聪明 寒冷 O.715 O.O12 聪明 机智 0.968 O.146 高兴 粉红 0.064 0.000 高尚 陡峭 0.472 0.0O9 高兴 开心 O.167 0.038 炎热 干燥 O.867 0.114 初级 基础 0.240 0.I10 初级 高级 0.742 0.I35 陡峭 崎岖 0.942 一I.000 崎岖 平坦 O.9O1 —1.000 在形容词词对上(表8),对于“聪明、机智”、“炎 热、干燥”、“初级、高级”、“陡峭、崎岖”、“崎岖、平坦” 等词对,本文方法占优,其余词对大致持平。 此外,百度CW算法口 和王石算法有类似问 题,这里不再赘述。 实际上,基于语料的相似度计算方法,其相似度 取值普遍偏低,在相似度数值的合理性方面,本文方 法更优。此外,基于语料方法的特征提取依赖上下 文环境,而在上下文中出现的词语体现的不一定是 相似性,有可能是相关性,这会造成较大的干扰。 4.4关于语义相似度分布的讨论 语义相似度分布体现特定模型在全局数据上的 分布合理性。目前,《概念词典》中有52 108个二字 词,它们之间词对组合的数量达到了2.72*1O 。 考虑计算代价问题,我们对二字词采取十分之一随 机抽样,该取样并不影响整体分布。本文方法对 5 211*5 211个词对的相似度计算结果满足正态分 布,即对于整体的汉语词语,可以表述为“特别相似” 或“特别不相似”的情形相对较少。 1期 康司辰等:基于语义构词的汉语词语语义相似度计算 1O1 百度CW算法基于词向量计算语义相似度,利 用百度公司NLPC小组提供的计算工具,我们也得 到了该5 211*5 211个词对的相似度计算结果,同 样满足正态分布。 实验表明,上述两组数据在置信度95 区间上 进行正态分布拟合,R方值达到0.9以上,具有很强 [23李峰,李芳.中文词语语义相似度计算——基于《知网》 20o0l,J].中文信息学报,2007,19(3):99—105. [3]江敏,肖诗斌,王弘蔚,等.一种改进的基于《知网》的词 语语义相似度计算[J].中文信息学报,2008,21(5): 84—89. I-4]张瑞霞,朱贵良,杨国增.基于知识图的汉语词汇语义 相似度计算EJ].中文信息学报,2009,22(3):116-120. [5]王小林,王东,杨思春,等.基于《知网》的词语语义相似 度算法[J].计算机工程,2014,12:177—181. I-6]张沪寅,刘道波,温春艳.基于《知网》的词语语义相似 的说服力。这种情况也符合人类对于语言的一般 认知。 5 结语 在汉语词语语义相似度计算领域,因为知识表 示欠缺、数据匮乏等原因,完全采用语义构词知识的 方法前人还未曾实践过。 基于汉语字本位的思想,我们尝试采用词类、构 词结构、语素义等汉语语义构词知识,以“语素概念” 为基础,并结合其在“语素概念体系”上的意义表达 和约束,借助这些密集的构词知识来计算语义相似 度,该词义知识表示具有简单、直观、易于拓展等优 良特性。 建立在这种词义知识表示上的相似度计算模型 简洁、易懂,在算法中采用了尽可能少的特征和参 数,实验表明,其在典型“取样词对”上的表现突出, 相似度数值更符合人类的直观感觉,且在全局数据 上也表现出合理的分布规律。 当然,本文方法还存在一些不尽人意的地方。例 如,汉语单纯词的语义不能由语系义直接导出,部分 合成词存在转义、隐喻等现象,这些问题目前尚没有 加以考虑和处理,虽然它们在所有词中占比不高;此 外,词语概念距离如何转化为语义相似度,如何选取 更合适的函数模型,技术细节也还有待探索和深入。 后续要开展的工作包括“语素概念体系”的修订 完善、多字词构词结构和语系义标注、以及语义相似 度算法的优化等,以进一步提高相似度计算的准确 率和覆盖面,并将其用于实际的应用系统。 最后,感谢北京大学中文系郭锐教授对汉语构 词结构工作的指导,感谢百度公司NLPC团队对相 似度计算研究的大力支持和KRR小组关于相似度 应用实用性问题的启发。 参考文献 [1]张亮,尹存燕,陈家骏.基于语义树的中文词语相似度 计算与分析EJ3.中文信息学报,2010,24(6):23—30. 度改进算法研究FJ].计算机工程,2015,02:151-156. [7]刘杰,郭宇,汤世平,等.基于《知网》2…)8的词语相似 度计算l-J].小型微型计算机系统.201 ,08:1728一 l733. E8] 何夏燕.基于汉语概念图的词汇语义相似度计算[D]. 上海交通大学,2010. [9]詹志建,梁丽娜,杨小平.基于百度百科的词语相似度 计算I-J].计算机科学,2013,06:199—202. [1O]刘群,李素建.基于《知网》的词汇语义相似度计算 Ec].第三届汉语词汇语义研讨会,台北,2002. [11]王石,曹存根,裴亚军,等.一种基于搭配的中文词汇 语义相似度计算方法EJ].中文信息学报,2013,27 (1):7-14. [12]蔡东风,白宇,于水,等.一种基于语境的词语相似度 计算方法EJ].中文信息学报,2010,24(3):24—28. ,113]关毅,王晓龙.基于语料的汉语词汇间语义相似度计 算[C].语言计算与基于内容的文本处理——全国第 七届计算语言合学术会议论文集,2003:7. r14]Ronan Collobert,Jason Weston,L6on Bottou,et a1. Natural Language Processing (Almost) from Scratch.1,J]Journal of Machine Learning Research, 2011,12(Aug):2493—2537. [15]苏宝荣.汉语复合词结构义对构词语素意义的影响 [J].语文研究,2013,01:1-4. [】6]苑春法,黄昌宁.基于语素数据库的汉语语素及构词 研究I-J].语言文字应用,1998,03:86—91. '117]Pustejovsky J.The Generative Lexiconl,M].Mass: MIT Press,1994. r 1 8] Grady Booch,Robert A Maksimchuk,Michael W Engle,et a1.Obj ect—Oriented Analysis and Design with Applications,3 rd Edition[M].AddisowWesley Professional,2007. r 1 9] Fellbaum C.WordNet:An Electronic Lexical Data— basel-M].Mass:MIT Press,1998. E20]杨梅.现代汉语合成词构词研究[D].南京师范大学 博士学位论文,2006. [21] 陆顾婧.汉语构词分析与词义知识表示研究[D].北 京大学硕士学位论文,2013. (下转第111页) 孙媛等:减议跨语言话题帧型构建及时齐 法研究 1 1 l 高,分 的准确性埘汁算的效果仃着至关重要的作 用,这也是进行后续研究的艇础; 3.浏向量圳练讲料的好坏 接影响到语义距 ei I)M.Ng A Y,Jordan M I.I atenl Dirichlet Allo [6] Blmachine learning resea rch cation[J].The Journal of 2003(3):993 1022. 离的汁算,相比下汉语.由了二网络上藏语语料环境的 复杂悱干¨藏语 料的缺乏,常常会导致藏 词向量 使J{j效果不佳.今后.需要寻求卡H对规范化的藏 语 料.许埘藏语同rn】培洲练语料规模进行扩火。  M.Feng A,Kumaran【;.et a1.UMass at [7] ConnellTD'I’2004 L J /ProceediI1gs of the Topic Detection and Fracking Workshop Report.2004. 卫an J.Papka R.I avrenko V.()n line New Event [8] AllDetection and Tracking[(、,//t’roceedings of SIGIR, 1998:37—45. Eg] 洪宁,张宁,刘挺,等.话题检测与跟踪的评测及研究综 参考文献 述[JJ.中文信息学报.2007,21(6):7】一87. [1o] Yang Y,Pierce T,Carbonell J.A Study of Retro [1] r岛定罔,关n.f【1I顾藏文信息处理技术的发展EJ].西 spective and()n line Event Detection f— ]//Pl・oceed 域大学学报:÷f:会科学版.20{)9(3):18 27. ings of the 2 1 st ann Llal international ACM SIGIR con [2] 何叫 #.当代臧文信息处理的现状 展望L .科技资 ference on Research und development in information 讯.2()l 1.12(23):2 49—249. retrieva1.ACM,1 998:28-36. J Allan..I Ca rt}oneli,( Dodding*on.et a1. Fopic De— [11] Wei X.Croft W B.1 DA based document models for lection and Tracking Pilot Study:Final Reporl[c]// ad—hoc retrieval[【、]//t roceedings of the SIGII(. l roceedings of the I)ARPA Br{}adcast News Franscrip ACM,2006:1 78 185. tion and Un(1erstanding Workshop. Virginia: I ans [1 2] 徐戈.J二厚峰.自然讲高 处理中卞题模型的发腱lJ]. dov,,ne,1 998:1 LjlI 2l8. 汁 机学报,2O1】,3,1(8):l423一1 t36. E4] 1)eerwester 【、.I)umais T.I andauer T K,el a1. [13] 陆前.典、汉跨语苦 题检测与跟踪技术研究[I)J.【}J Indexing by latent semantic analysis[J].JASIS.1 990, 央 族大学博士学化论文,2O13. 1l(6):391 4()7. [142 石杰.巾泰跨语 题榆测方法 j技术研究[I)].昆 [5] I tofmann T. 1 robabilisti{・latent semantic indexing 明卵1_大学硕士学化论文,2O1 5. L(’j/ /Proceedings of S1GIR.A M.1 999:50—57. 孙嫒(1 979).博 剐教授.硕士生导师,主要 研究领域为自然语。 i‘处理和知识】 E—mail:1 737()11O2@(1(1.COIIl f 辛}—#; ’} }: 声 :f 贞) 康 艇(1 993).术科生.主要研究领域为应J}J 沿. i学、 ’i 知识l 稚、中文信息处理。 E—matl:1 008{rank@silla.COFII 

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- axer.cn 版权所有 湘ICP备2023022495号-12

违法及侵权请联系:TEL:199 18 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务