您好,欢迎来到尔游网。
搜索
您的当前位置:首页基于多编码器多解码器的大规模维汉神经网络机器翻译模型

基于多编码器多解码器的大规模维汉神经网络机器翻译模型

来源:尔游网
第32卷第9期 中文信息学报 JOURNAI OF CHINESE INFORMATION PROCESSING Vo1.32,NO.9 Sept.,2O18 2018年9月 文章编号:1003—0077(2018)09—0020—08 基于多编码器多解码器的大规模维汉神经网络机器翻译模型 张金超 w,艾山·吾买尔 ,买合木提·买买提 ,刘群 (1.中国科学院计算技术研究所智能信息处理重点实验室,北京100190; 2.中国科学院大学,北京100049;3.腾讯科技(北京)有限公司,北京100080; 4.大学信息科学与工程学院,乌鲁木齐830046; 5.都柏林城市大学,都柏林爱尔兰) 摘 要:为提升维汉机器翻译模型的翻译能力,该文提出使用多编码器多解码器的结构,搭建大规模的维汉神经网 络机器翻译模型。相比于单编码器单解码器的浅层的小模型,多编码器多解码器模型具有多个编码器,可以对源 语言进行多层次、多视角的压缩表示;同时具有多个解码器,可以增强目标语言的生成能力。实验证明,在大规模 的训练数据上,使用该方法搭建的大规模维汉神经网络机器翻译模型,译文质量可以大幅度地超过基于短语的统 计机器翻译模型和基本的神经网络翻译模型。该文还针对维汉翻译源端语言和目标端语言的翻译单元粒度进行 了实验,发现维吾尔语端使用字节对编码单元、汉语端使用字单元,可以消除对汉语分词器的依赖,做到和双端都 使用字节对编码单元可比的效果。 关键词:维汉机器翻译;神经网络;多编码器多解码器 中图分类号:TP391 文献标识码:A A Large—scale Uyghur-Chinese Neural Machine Translation Model Based Oil Multiple Encoders and Decoders ZHANG Jinchao 。 ,Aishan Wumaier ,Maihemuti Maimaiti ,LIU Qun (1.Key I horatory of Intelligent Information Processing,Institute of Computing Technology,Chinese Academy of Sciences,Beijing 100190,China; 2.University of Chinese Academy of Sciences,Beijing 100049,China; 3.Tencent Technology(Beijing)CO.,Ltd.,Beijing 100080,China; 4.School of Information Science and Engineering,Xinjiang University,Urumqi,Xinjiang 830046,China; 5.Dublin City University.Dublin,Ireland) Abstract:To enhance the translation ability of Uyghur—Chinese translation model,the paper proposes a large-scale Neural Machine Translation system based on multiple encoders and decoders.Compared with the encoder-decoder based shallow model,the proposed model consists of multiple encoders to represent the source sentence in multiple perspectives and has multiple decoders tO extend the generation ability of the target sentence.The experiments on the big training corpus show that the translation quality of the proposed model surpasses phrase based Statistical Machine Translation model and the basic Neural Machine Translation mode1.The paper also investigates the granu— larity of the translation unit and reveal that it is effective to employ the Byte Pair Encoding unit for Uyghur and char— acter unit for Chinese tO avoid the Chinese word segmentor and achieve comparable performance with BPE—‘BPE sys—。 terns. Key words:Uyghur—Chinese machine translation;neural network;multiple encoders and decoders 收稿日期:2017—11-23 定稿日期:2018—03—07 基金项目:国家自然科学基金(61331911,61262060);多语种信息技术实验室开放课题(2016D03023);自治区青年科 技创新人才培养工程青年博士项目(QN20l5BS004) 9期 张金超等:基于多编码器多解码器的大规模维汉神经网络机器翻译模型 21 0 引言 机器翻译任务致力于使用计算机实现源端语言 到目标端语言的自动化翻译,降低不同语种群体之 间的沟通代价,是人工智能学科的一个重要分支。 统计机器翻译模型(statistical machine translation model,SMT)在神经网络翻译模型(neural machine translation model,NMT)被提出之前是主流的翻译 模型,主要的模型有基于词的机器翻译模型l】]、基于 短语的机器翻译模型_2]、基于句法的机器翻译模 型[3]。在统计机器翻译模型中,翻译知识是从双语 平行句对中使用统计方法学习到的显式规则。统计 机器翻译模型通常包括多个子模型,比如翻译概率 子模型、调序子模型、语言模型子模型,这些子模型 被流水线式地一步步搭建和调优。与统计机器翻译 模型不同,神经网络翻译模型_4。 使用一个神经网络 直接进行端到端(end—to-end)的训练来拟合翻译知 识。具体地,神经网络翻译模型借助于编码器 (encoder)对源端的句子进行向量化的分布式表示, 使用解码器(decoder)根据源端的分布式表示逐词 地生成目标端的句子。注意力(attention)机制被引 入来建模词对齐的信息。通过这样的方式,模型中 所有的参数都统一到一致的目标函数下调整,模型 中的翻译知识通过神经元之间的连接权重隐含地表 达。神经网络翻译模型自提出以来,在多个语言对 上的表现显著地超过了统计机器翻译模型,成为当 前主流的翻译模型。 维汉神经网络机器翻译模型面临着两个困难: 一方面,维吾尔语是一种黏着语,通过在词干上附加 各种不同的词缀来实现语法功能。维吾尔语的词汇 具有丰富的词形变化,这就造成了严重的数据稀疏 问题;另一方面,目前搭建维汉机器翻译模型的语料 规模都较小,在小规模的训练语料上得到的系统翻 译质量低。对于神经网络机器翻译模型,数据规模 十分影响模型质量。为提高维汉神经网络机器翻译 模型的能力,本文提出使用多编码器多解码器的结 构,搭建大规模的神经网络模型。同时,分别探索了 适合神经网络机器翻译的维汉翻译单元粒度。本文 的实验在190万句的维汉平行语料上进行,该语料 是目前最大的维汉平行语料库,实验结果参考性高。 本文的实验结果证明,在大规模训练数据的条件下, 基于神经网络的维汉机器翻译模型的能力显著地超 过了统计机器翻译模型;多编码器多解码器的网络 结构能够有效地提高神经网络机器翻译模型的能 力;维吾尔语端采用字节对编码作为基本翻译单元, 汉语端采用汉字作为基本翻译单元,可以摆脱对汉 语端分词器的依赖,并得到效果很好的翻译系统。 1 相关工作 神经网络机器翻译模型的基本结构是编码器一 解码器(encoder—decoder)结构。编码器通常是循环 神经网络(recurrent meural network,RNN)l7 或卷 积神经网络(convolutiona1 neural network, CNN)Es],最新的研究也有使用基于自注意力机制 (self attention)的编码器__9]。编码器的主要功能是 对源端待翻译的句子进行向量化的压缩表示。基于 RNN的编码器视句子为一个序列,对句子中出现的 词汇按时间顺序逐个处理,形成压缩表示。两个不 同的RNN分别处理正向和逆向的词汇序列,两种 表示被连接起来作为最终的源端表示。基于门 (gate)控机制的门控循环神经网络(gated recurrent neural network,GRU)_5 和带有记忆模块和门控机 制的长短时记忆循环神经网络(1ong—short term memory recurrent neural network,LsTM)[ 。 使得 RNN具有选择性捕获和遗忘历史信息的能力。基 于CNN的编码器通过使用不同宽度的滑动窗口, 从序列中捕获上下文局部信息。多层的CNN编码 器和池化(pooling)机制可以实现对全局信息的学 习 ,基于自注意力机制的编码器,使句子序列中词 汇:之间的交互距离成为与句子长度无关的常数,对 于捕获长距离依赖信息具有显著优势。解码器会根 据:编码器对源端句子的表示和已经生成的目标端的 局:郎译文,逐翻译单元地生成目标端译文。对已生 成的目标端的局部译文的建模,同编码器一样可以 使胃循环神经网络、卷积神经网络、自注意力机制 等。注意力机制I6]被引入到神经网络翻译模型中, 目的是对词对齐信息进行显式的建模。 之前已有研究者尝试使用神经网络模型搭建维 汉机器翻译模型的工作。孔金英[1 等使用带注意 力机制的编码器解码器结构搭建了维汉口语机器翻 译模型。哈里旦木E 等对比了多种神经网络机器 翻译模型。这些工作都是基于单编码器单解码器的 基本神经网络结构。训练数据分别为5O万句和10 万句的小规模语料,神经网络规模较小,结构较简 单。本文提出使用多编码器多解码器的结构,搭建 结构更复杂的大规模维汉机器翻译模型来提高维汉 22 中文信息学报 机器翻译译文的质量,并在大规模数据上进行了有 效性验证。 神经网络机器翻译模型以端到端的方式对输入 序列和输出序列的映射进行直接建模。给定源端输 入X— ,…, }和目标端输出Y一{ ,…, }, 翻译概率被建模成,如式(1)所示。 P(Y{x)一II P(y I y ,x) (1) t—l 其中,_y< 一_y “,Y 。编码器对源端句子的分布 式表示和解码器对目标句子的生成过程,如式(2) 所示。 ^一 …hm):E㈣der(x)’ (2) Y一{Y1,…,Y }一Decoder(h) 其中,h是源端句子的分布式表示,目标语言的生成 过程如式(3)所示。 q—g(Y,-1’ f’ £ (3) P( ,j < ,X)一softmax(q), 其中,g是预测目标端词的张量,g(·)是一个线性 函数,S 是解码器的隐层状态,C 是源端分布式表示 的权重加和,通过注意力机制计算得出。C 的计算 方式如式(4)所示。 Ct—attention( l,^)一∑ott,ih , OQ,i—align(s…hi) (4) 一softmax(V[tanh(W S 1+U h,)) 其中,W。,U , 。为矩阵参数。图1展示了一个基本 的神经网络机器翻译模型的架构,包括编码器、解码 器和注意力机制。 <s>Y1 , l 图1 带注意力机制的神经网络机器翻译模型 2 基于多编码器多解码器结构的维汉神经 网络模型 为提升维汉机器翻译的译文质量,本文提出使 用多编码器多解码器结构,搭建大型的神经网络机 器翻译模型。该模型结构如图2所示,可以容纳任 意个数的编码器和解码器,易于扩展和增强。多个 编码器工作,对源端句子进行分布式表示,所有 编码器的输出通过一个前馈神经网络结合到一起, 构成源端句子的最终分布式表示。多个解码器具有 的注意力机制,所有解码器的输出同样被一个 前馈神经网络结合到一起,最终被集成到目标端词 - 汇表,分类层:计算每个目标端翻译单元的概率。 网络中所有的参数都统一到一致的目标函数下进行 训练学习。 译文 、\I// I s。lfanax{ 多解码器 —/f—\ decoder, decoderH \ }// \j// \I/ source representation 多编码器 /f\ l enc。der l l … I I enc。de l f\ /I\—■ 7l 原文 图2 多编码器多解码器结构示意图 2.1多编码器结构 编码器的作用是对源端句子进行分布式的表 示,基本的神经网络机器翻译模型使用一个编码器 来处理源端的句子。多编码器的思路是使用不同深 度和结构的多个编码器对源端句子分别进行分布式 表示,然后将这多个分布式的表示融合起来作为源 端句子最终的表示。不同深度的编码器对源端句子 具有不同的分布式表示能力,不同结构的编码器对 句子表示过程中关注的句子特征的方式不同。我们 期望通过这种方式能得到一个对源端句子更全面的 表示,增强模型能力。 图3展示了一个由三个RNN和一个CNN构 成的编码器。四个子编码器共享词向量矩阵,其他 参数。输入一个源端句子,句子中的翻译单元, 例如字或词,经过词向量矩阵的映射成为向量,每个 子编码器对该向量序列进行压缩表示。我们使用 GRU作为RNN的单元,逐层地堆叠RNN,形成深 度网络结构。前向的RNN和后向的RNN依次堆 9期 张金超等:基于多编码器多解码器的大规模维汉神经网络机器翻译模型 23 源端分布式表示 匦]口 唑 一 :::、~ 。 。 — 。。 — — ] 网 lr —h——e—n一, … l hcnn  一— —r —— 一—下一L_T一 _’{I//、/G\  /ate1/ \、) (/\ 、…)、//\/\ \/(G  /~,a、te/1 、 ) 、、/,、、 @ @ n …// nn/ ‘L L  LD ]- [J .D _L— 上工 齄 J 。一●。一 ]L J ~. , l33』 } II  RLGGRR+UU1 11HH……H 十 ’H。 LRGGRR+UUl 1lI 。I ’—————==二—~ 一 .l1 RLGR+1LU  I321 H…H千…l  H RLGR千Ul/ 312 Il ! : —— =======三三三三三三三三 — — l\:‘::二 \:::/ :::: .. ,/ 图3 由三个RNN和一个CNN构成的编码器 叠,来捕获正向和反向的上下文环境。图中所示的 三个基于RNN的编码器具有不同的深度,层数分 2.2多解码器结构 别为2层、4层、6层。CNN子编码器使用一个固定 解码器逐翻译单元地生成目标端译文,我们提 大小的滑动窗I:1来捕获局部的上下文信息。为减少 出使用多解码器的结构提升解码器的生成能力。为 梯度传播损失,我们使用一个门控单元来将每个子 了方便表述,我们将注意力机制视为解码器的一部 解码器的原始输出和词向量通过一个门控单元进行 分,我们的每个子解码器中都包含一套的注意 重组。我们以encoder2的输出为例,门控单元具体 力机制。所有子解码器的输出最终被结合到一起, 的计算如式(5)所示。 用于目标端译文的生成。 22 —sigmoid(W ·e(x )+W ·021+b ) 图4展示了由三个子解码器构成的解码器结 无2 :tanh(W ·e(x )+W ·02 +b^) (5) 构,每个解码器具有不同的深度。以decoder2为 h2 :(1一 2 )·e(xf)_十一z2 ·无2 例,该子解码器的计算逻辑,如式(7)所示。 其中,w ,w ,w ,w ∈R拟 为矩阵参数,b , 21.£一LGRU21( 2, 1, r1) b ∈R 为偏置参数。最终门控单元的输出被一个 22.f—LGRU22( 『22, 1, 21,£) 前馈神经网络组合起来,作为源端句子的分布式表 C 一attention2( 22, ) (7) 示。该前馈神经网络的计算如式(6)所示。 52,£一DGate2( 22ll'C2,f) 4 q2.£一g(s2.£,C2,t,Yr1) h ===tanh(>:(—。k。。w址·h )+b) (6) 其中, 和f。 , 是不同层次的RNN层的输出,cz, =l 其中,W胀∈.R拟 是矩阵参数,b∈R 是偏置参数。 是注意力机制计算出的源端相关上下文。与编码器 24 中文信息学报 图4 由三个子解码器构成的解码器 中的门控机制类似,我们也设计了针对解码器的门 控来结合解码器的隐层状态和源端相关上下文, DGate2( c , )的计算如式(8)所示。 ,数据,数据规模在190万句左右,是到目前为止维汉 机器翻译实验使用的最大的平行语料。开发数据采 用了CWMT2017维汉机器翻译评测提供的开发 集,测试数据使用了CWMT2017维汉机器翻译评 —sigmoid(W · 2f+W · 22, +b ) r—sigmoid(W ·C2+W · 22, +b ) , 测提供的去重版测试集。数据规模如表1所示。 表l数据规模 2, 一tanh((W · 22, +b )*r+W。·c2. ) 52,f一 22, ·z+ 2.f·(1~ ) (8) 句对数量/句 训练集 开发集 其中, 是更新门,r是重置门,w , w , ,w , 1 916 995 700 ,w 是矩阵参数。每个子解码器的输出q 使用一个前馈神经网络组合到一起,输入到目标端 词汇表分类模块,得到归一化的翻译单元概率,计算 过程如式(9)所示。 测试集 861 维吾尔语端进行了拉丁化处理和简单的切分, 拉丁化采用的是大学提出的维吾尔语拉丁化方 q 一tanh(∑w曲·q +bq) k (9) 案,切分的目的是将标点符号和维吾尔语词语分开。 P(y )一softmax(q ) 对于汉语,我们使用了中科院计算所的分词工具进 行了分词处理,分词标准遵循《人民日报》标准。翻 译结果的评价指标与CWMT2017保持一致,即基 3 实验 我们进行了多组实验来验证多编码器多解码器 于字的BLEU—SBP分数。译文没有做任何后处理 操作,统计机器翻译模型的输出译文保留未登录词, 神经网络机器翻译的输出译文保留未登录词符号。 3.2实验设计和参数细节 结构的有效性,并探索了翻译单元的粒度对翻译结 果的影响。 3.1 实验数据与评价指标 统计机器翻译模型使用了基于短语的模型,模 型采用开源Moses系统训练得到。词对齐使用 训练数据我们采用了大学收集的新闻领域 9期 张金超等:基于多编码器多解码器的大规模维汉神经网络机器翻译模型 25 GIZA++工具,对齐策略为“grow-diag-final-and”。 四元语言模型使用了sRLIM工具,借助Kneser— Ney算法做平滑。我们使用了MERT工具在开发 集上进行调优。解码搜索空间stack参数设为1O0。 我们实现了神经网络机器翻译模型RNNSearch 作为神经网络翻译模型的基线系统。该模型的编码 器和解码器都基于门控神经网络GRU,使用注意力 机制连接编码器和解码器。我们搭建了多个多编码 器和多解码器的模型,来探究该结构的有效性。神 经网络机器翻译中,词向量维度和隐层神经元的个 数均设为512。对于方阵的权重参数,我们使用正 交的初始化方式。对于非正交的矩阵权重参数,我 们使用均值为0、方差为0.01的高斯分布进行初始 化。所有的偏置参数初始化为0。参数训练使用基 于batch的梯度下降算法,batch的大小设置为80, 学习率控制算法基于AdaDelta,其中衰减参数p一 0.95,分母常量 一1E一6。Dropout策略只使用在 解码器输出层,drop rate为0.5。梯度截断(gradi— ent cliping)算法被用来防止梯度爆炸,作用方式为 L2正则的梯度大于1.0的时候重置为阈值。解码 采用柱搜索(beam search)的方式,beam size参数 设为12,最终的译文分数除以译文长度做归一化处 理后进行重排序。 针对神经网络翻译面对的词汇数据稀疏问题, 我们在维吾尔语端进行了使用词和字节对(BPE)编 码作为基本翻译单元的实验。字节对编码使用了 BPE开源工具,在维吾尔语端单语迭代5万次。在 汉语端进行了使用词、汉字和字节对编码作为基本 翻译单元的实验。维吾尔语端5万词表在训练语料 上的文本覆盖率约为94.6 ;5万BPE单元词汇 表在训练语料上的文本覆盖率约为100 。汉语端 3万词表在训练语料上的文本覆盖率为96.5 9/6; 1万字单元词汇表文本覆盖率约为99.9 ;3万 BPE单元的词汇表在训练语料上的文本覆盖率约 为99.3 。 3.3实验结果及分析 下面我们对实验系统进行具体描述: (1)Moses是基于短语的统计机器翻译系统; (2)RNNSearch 是带注意力机制的单编码器 单解码器结构的神经网络机器翻译系统; (3)3encoder是具有三个编码器的多编码器结 构的神经网络机器翻译系统,编码器基本单元是 GRU,每个编码器的深度分别为2,4,6; (4)3encoders一3decoders是具有三个编码器三 个解码器的多解码器多编码器结构的神经网络模 型,编码器和解码器基本单元是GRU,每个编码器的 深度分别为2,4,6,每个解码器深度分别为2,4,6; (5)4encoders3decoders是具有四个编码器三 个解码器的多解码器多编码器结构的神经网络机器 翻译系统。编码器中三个是使用GRU的RNN,深 度分别为2,4,6,还有一个是窗口宽度为3的 CNN;多解码器端有三个解码器,都是使用GRU的 RNN,深度分别为2,4,6。 表2展示了我们的实验结果。通过分析实验结 果,我们可以看到统计机器翻译模型的BLEU值明 显低于所有的神经网络模型。对比系统1和系统 2,在测试集的BLEU一5指标上,基于词单元粒度的 基本神经网络翻译模型RNNSearch 超过Moses 约_【.7O个点。这说明在大规模训练数据的条件下, 即使维吾尔语由于其语言特点存在比较严重的词汇 稀疏问题,基于神经网络的维汉机器翻译模型的性 能依然可以显著超过基于短语的统计机器翻译 系统。 系统2~5用来对比不同粒度的翻译单元对模 型能力的影响。对比系统2和3,我们发现对维吾 尔语端做字节对编码后,测试集BLEU一5指标增长 约2.11个点。实验说明,维吾尔语端字节对编码能 够改善其词汇稀疏导致的词汇表覆盖率低、未登录 词较多的问题。对比系统3和系统4,当我们在汉 语端使用字作为翻译单元时,可以进一步得到约 2.】4个BLEU一5点的提升。汉语端使用字作为翻 译单元具有多个优点: (1)可以缓解词汇稀疏问题,有效地提升翻译 质量; (2)不再需要额外的分词工具对训练语料和测 试语料进行分词,同时也避免了不同分词标准对模 型的影响; (3)词汇表的规模可以大幅度缩小,有效地减 少训练时间和解码时间。 对比系统3~4和5,我们发现在RNNSearch 模:型上,维吾尔语端和汉语端都基于BPE单元,可 以:在测试集上得到最高的BLEU一5值。 系统6~7和10用来分别验证多编码器结构和 多解码器结构对模型能力的提升效果。对比系统4 和系统6,我们发现多编码器结构的神经网络机器 翻泽系统虽然在参数量上要小于RNNSearch 系 统,但是效果却优于RNNSearch ,这证明了多编码 26 中文信息学报 器结构的有效性。对比系统6和系统7,我们发现 通过扩展单解码器到多解码器结构,进一步带来了 翻译效果的提升。对比系统7和系统10,我们发现 引入基于CNN结构的编码器会进一步提高测试集 BI EU一5分数约1.04个点的提升。这些实验证明 了我们提出的多解码器多编码器结构的有效性。 表2维汉实验结果 序号 系统 翻译单元/词汇表 维语 1 Moses 词 开发集BI EU—SBP BLEU一4 52.63 测试集BLEU—SBP BLEU一4 42.16 汉语 词 BLEU一5 45.72 BLEU一5 35.89 2 RNNSearch 词/5万 词/3万 54.14 47.96 43.16 37.59 3 4 5 RNNSearch RNNSearch RNNSearch BPE/5万 BPE/5万 BPE/5万 词/3万 字/1万 BPE/3万 56.17 56.60 57.27 49.91 49.75 5O.78 45.39 47.96 48.42 39.70 41.84 42.50 6 7 8 9 1O l1 3 encoder 3encoderBPE/5万 BPE/5万 词/5万 BPE/5万 字/1万 字/1万 词/3万 词/3万 57.43 58.67 55.61 58.62 50.51 51.89 49.3O 52.17 48.29 49.O7 44.4O 47.18 42.17 42.88 38.79 41.65 3decoder 3deeoders 3decoders 4encoders4encoders4encoders3decoders 3decoders BPE/5万 BPE/5万 字/1万 BPE/3万 59.62 59.98 52.95 53.46 5O.O7 50.O6 43.92 44.06 4encoders系统8~11是我们提出的使用多编码器多解 码器结构搭建的大型神经网络机器翻译模型,我 们同时也对其进行了不同翻译单元粒度的测试。 基于词一词粒度的多编码器多解码器系统8,与 的语料是语言数据联盟(Linguistic Data Consortium) 发布的语料(LDC2002E18,LDC2003E07,LDC2003E14, LDC2004T07 Hansards,LDC2004T08,I上C2005TO6), 共125万句对,开发集使用的是2002年NIST评测 发布的测试集,测试集使用的是2003--2006年 NIST评测发布的测试集。实验参数配置与维汉系 统一致,双语词汇表规模限定为三万,评价指标采用 四元的BLEU值(mteval—vl1b.p1)。 RNNSearch 系统2对比,测试集上BLEU一5指标 提升了约1.2个点;基于BPE一词的多编码器多解码 器系统9与RNNSearch 系统3相比,测试集上 BI EU一5指标提升了约1.95个点;基于BPE一字的 多编码器多解码器系统1O与RNNSearch 系统4 我们的实验结果如表3所示。通过对比系统 2、3、4、5,可以看出基于多编码器多解码器结构的神 经网络机器翻译系统性能有了显著的提升,这说明 该结构在汉英翻译方向上也可以有效地改善译文质 量。我们同时也和集成方法做了性能对比,这里使 用的集成方法(ensemble)是训练了三个具有不 相比,测试集上BLEU一5指标提升了2.O8个点;基 于BPE~BPE的多编码器多解码器系统11和 RNNSearch 系统5相比,测试集上BLEU一5指标 提升了1.56个点。这四组实验对比,说明多编码器 多解码器结构对于提升维汉神经网络翻译的性能有 明显的效果。对比系统1O和l1,我们发现在 同深度编码器和解码器(2、4、6层)的神经网络机器 翻译模型,然后在解码搜索的过程中,对三个模型输 出的目标端词汇的概率分布做了平均化。我们可以 看到,集成方法对于提升翻译效果是有效的,但是会 带来总参数量成倍地增加。在训练的时候,要针对 RNNSearch 系统上带来了提升的汉语端BPE方 案并没有在大模型上带来显著性的提升。系统11 是我们所有实验中最优的模型,在BLEU-5指标上, 超过了基于短语的统计机器翻译系统约8.17个点, 超过了基于词的基本的神经网络模型RNNSearch 约6.47个点。我们的实验结论对于搭建高性能的维 汉机器翻译系统具有重要的参考价值。 3.4汉英翻译实验及与集成方法的对比分析 每个模型进行训练和调优,在解码的时候,所需 的时间相对于单模型也会成倍的增加。我们提出的 多编码器多解码器,参数统一训练,共享结构使得参 数量增长速度是线性的,解码时最终计算目标端词 汇表概率分布的时候,只需要一次大矩阵的变换和 一我们在汉英翻译方向上对多编码器多解码器神 经网络机器翻译模型进行了实验对比。训练集选用 次softmax归一化,计算量比集成方法要小很多, 对于提升单模型的性能是十分经济有效的。 9期 张金超等:星于多编码器多解 器的人规模维汉神经网络机器剐 }I! 27 表3汉英实验结果 序号 1 Moses 系统 参数量(Million) NIST03 31.61 NIST04 3:3.48 NIST()5 3().75 NI T()6 :{1.c 7 F 、F-均 :{1.(j7 w Ⅲ S s C h 2 3 RNNSearch 2encoder 53.7 62.6 37.35 37.88 39.32 39.77 35.82 36.28 3.1.1() 35.02  .71: o :{7.2 l S 4 5 6 3encoder 3encoder3decoder 73.4 87.8 1 75.3 38.99 38.93 41.4 2 4O.89 11.69 42.91 37.Ll6 38.2 1 39.36 :{7.1:{ 37.3 l 38.21 :{8.( 1 A :{【)_I15 RN NStarch (ensem[}le 3) De● ∞ l().1 0 .1总结与展望 本文提f}{使用多编码器多解码器的结构.搭建 大规模的维汉神经『积J络机器翻译模型的方法。该结 构可以对源语言进行多层次、多视角的压缩表示;『占】 时具有多个解码 ,叮以增强目标语 的生成能力。 实验证明,在大规模的训练数据上,使用该方法搭建 的大规模维汉神经网络机器翻译模型.译文匝量 r 以大幅度地超过基于短语的统计机器翻译模型和基 本的神经网络翻译模 ;维吾尔语端使用字节对编 码(BPE) 元、汉语端使用宁单元.可以摆脱对汉语 端分词器的依赖,得到较强的翻译系统。未来我们 会考虑根据维吾尔语的特点,从语言学的角度提ft{ 吏具有针对性的珩午决方案来缓解数据稀疏的问题. 进一步提高维汉机器翻译系统的性能衷现。 参考文献 rameter eslimation[J].Computational I.inguistics 1 993.1 9(2):263 311. [2] Philipp Koehn.Franz J()ch,1)aniel Mareu.Statistica phrase based t ranslation[L、] /Proceedings of HLT AAL、I ,2003:48 54. 张金超(1 989).博士.主要研究领域为自然语 高‘处理和机器翻译。 E mail:zhangjinchao@ict. lc.cn 买合小提·买买提(1 98(1),博十研究q .主要 研究领域为自然 处理 E mail:mallmutjan@xiU.edu.cn a n [3] I)avid Chiang.A hiera rchical ph rast·IMISt,d l二^_ll “ odt l for statistical machine translalion【(、 /Procetm .-din J2,s of ACI .2005:263 270. K ㈣ n [4] al Kalchbrcnncr,Phil P,Iunson1.Rt CUteen1【 ()Illin|lOllS translation models[ ],/ Pro e’t edings of EMNI I I:{. Seattle.Washington.USA.2Ol 3:1 7OO 1 7() ). e Es] Kyunghyun Cho.Bart Van Merrienboer.L、agla|。(;ii二. l hre.el a1.I earning phrase repr{、st,nlations tlsing RNN enc(}der decoder fo r st ̄ttist 【l machine l r ̄tllS1;11ion J. arXiv preprint£l rXiv:1 406.】078.2O1 1. [6] I)zmit ry Bahdanau,Kyungbyun【、he.Vosbtil  LIjt·ngio. Neural maehine t ranslalion by j()mllY h、 l r1)iI1H t‘㈨lign 8nd translatef【、, Proceedings of ICI R 2O 1 .:[】I . E7] Ilya St|t skever.()riol Viny ̄ds.Qtit)(‘V I L、.St'q tit f】∽… sequence learning with nelIra]netwo rks I rOC k 【l ings of.201 4,4:3101 311:. gehring J.Auli M.(irangier Ij.el{【【_(、()Ilk()I/11I1)l川" {tuence lo sequen(’。learning[-l 1.; ̄rXix’t}rt I)rilit a rXi x: 1 70 .031 22.20l 7. [9] Ashish Vaswani.N{){till Shazc er. iki l}a rlll ̄iI‘.L.1 【1. Attenlioi1 is alI you need l J 1.¨ l、 prt print…。Xi x: 1 706.03762.2017. [10] Hochreiter S.Schmidtatiber_】.I,ong 5t/{}rl t¨1in 11it,Ill ory[J].Neural('Om1)utati()n.1 99 7. )(8):l l{ I 8【). [11] 孔金英.畅雅婷.等.基丁深 学j』的 f义【1 }Jl 泽研究[【、].第f‘二扁令闷fJ【器翮 ¨会. 奠徽 肥,2O1 6:67 76. [1 2] 哈 Il】+木·阿布郜电 小.刘汀_.孙 松.冲 fJ【 删 系统在维舟尔 汉讯翻 -il的 能埘f I, 夫学学报.2Ol 7.57(8):878 883. 芟山·吾"2-尔(1 981 ).博}。.MIJ教授.ii世 究 领域为少数民族自然滑 ’{处理’j机器翮 E Fill Li1:h …11 t 79@xlU.du.i'll 

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- axer.cn 版权所有 湘ICP备2023022495号-12

违法及侵权请联系:TEL:199 18 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务