一种计算机中限定翻译片段的交互式翻译方法
【技术领域】
[0001] 本发明涉及一种计算机中限定翻译片段的交互式翻译方法,特别是一种用户向系 统提供源语言正确切分信息,系统接收信息并进行重新解码的翻译方法。
【背景技术】
[0002] 统计机器翻译,自上世纪90年代以来发展十分迅速,取得了很大的进步,已成为 机器翻译领域中的研宄热点。
[0003] 虽然统计机器翻译已经有了长足的进步,但目前的机器翻译的实用性和可用性还 并不非常高,对于复杂的源语言句子的翻译结果不理想,尤其是不同语系之间的机器翻译 的质量更是急需提高,在提升机器翻译模型的翻译能力的难度越来越大、机器翻译系统的 翻译结果的直接可用性不够强的条件下,如何通过更好的人机交互来辅助用户进行翻译, 提高用户的翻译效率成为了一个重要问题。
[0004] 统计机器翻译系统中,一种非常高效的方法是基于短语的统计机器翻译系统,其 工作过程如下:输入待翻译的句子S,系统随之将其切分为n个短语,即S=Sl,s2,……sn, 进一步地,接着将每个源短语Si翻译成目标语言短语tp并利用已训练完毕的调序模型描 述每个短语h的调序信息,对所有短语进行组合,生成目标语言句子T=ti,t2,……tn。最 后在所有可能的候选翻译中搜索出概率最高的句子。由上可知,短语的翻译准确程度、翻译 的调序准确程度都是影响机器翻译的翻译能力的重要因素,用户参与系统的翻译,帮助系 统对上述两个因素进行正确的判断,对于整个基于短语的机器翻译系统的翻译能力有很大 的提升作用,本发明着重于对翻译的调序准确程度的研宄,在实际使用中,可以提高翻译质 量。
[0005] 在现有的发明技术中,如中国科学计算技术研宄所2011年申请的《计算机辅助翻 译的方法及系统》专利中,着重于在机器翻译的基础上,对机器翻译的结果利用一些交互方 式,提供记忆库、词典等方式进行翻译的后编辑,并没有提供系统对翻译结果进行重新解码 的功能,仅仅是对翻译结果的修改,需要用户提供词或短语或句子的正确翻译结果,且对用 户提供的信息利用不够充分,对机器翻译系统本身的解码过程没有起到调整优化作用,因 此需要寻求可支持用户提供更简单的信息,对用户提供的信息利用更充分的交互方法。
【发明内容】
[0006] 发明目的:本发明所要解决的技术问题是针对目前的机器辅助翻译系统中,只提 供了简单的后编辑和记忆库等交互信息,并没有充分利用用户提供的信息进行重新解码, 对机器翻译系统的解码输出没有起到调整优化作用的弱点,提出一种限定翻译片段的交互 式翻译方法。
[0007] 为了解决上述技术问题,本发明公开了一种交互式机器翻译中用户向系统提供源 语言翻译片段正确切分信息,系统接收信息并进行重新解码的新型交互方法。
[0008] 本发明所述用户向系统提供源语言翻译片段正确切分信息包括如下步骤:
[0009] 步骤1,用户通过系统提供的Web平台开始翻译,并向系统提供源语言翻译片段正 确切分信息;
[0010] 步骤2,系统接收用户提供的正确切分信息后进行重新翻译。
[0011] 其中,步骤1包括如下步骤:
[0012] 步骤1-1,用户在输入框中输入需要翻译的内容作为源语言,系统开始翻译,翻译 结束后得到格式化的初始翻译结果;
[0013] 步骤1-2,用户观察步骤1-1中生成的初始翻译结果,在源语言上选择片段的起始 词和结束词,从而将源语言中翻译片段正确切分信息提供给系统。
[0014] 步骤2包括如下步骤:
[0015] 步骤2-1,系统接收用户选择片段的起始词和结束词,根据源语言的词结构,从起 始词开始至结束词,确定用户所要求限定的翻译片段;
[0016] 步骤2-2,系统对源语言进行重新翻译,用户限定的翻译片段的内部不与片段外的 短语进行调序,即将用户限定的翻译片段作为整体进行翻译,用户限定的翻译片段的内部 翻译若要进行调序,必须生成连续的整体翻译结果,在系统得到新的翻译结果后,结构化输 出该翻译结果,若用户接收翻译结果,则结束本步骤,否则返回步骤2-1。
[0017] 步骤2-2包括:
[0018] 系统在机器翻译过程中,进行如下的限制:
[0019] 如果正在翻译的片段与限定的翻译片段无重叠,即还未进入用户限定的翻译片段 则继续标准的机器翻译流程,不做任何另外处理工作,即:
[0020] p(t|s,cst,cflag) =p(t|s)ifcflag=false,
[0021] 如果正在翻译的片段与限定的翻译片段有重叠,即正在翻译的片段进入了限定 的翻译片段,则系统必须将限定的翻译片段翻译完毕后再进行其他部分的翻译,从而达到 限定的翻译片段内部不与其他部分进行调序,保证限定的翻译片段是一个完整的整体的目 标,即:
[0023] 其中s为源语言短语;t为短语s的翻译结果;cst为用户限定的翻译片段;cflag 为正在翻译的片段是否进入限定的翻译片段的标记,初始值为false,一旦正在翻译的片 段进入了限定的翻译片段,cflag的值则重置为true,当限定的翻译片段被完全翻译后, cflag的值重置为false;cover(a,b)表示a,b是否重叠;p(t|s,cst,cflag)表示正在翻 译的短语进入了用户限定的翻译片段cst时(此时cflag为true),源语言短语s翻译为t 的概率;p(t|s)表示源语言短语s翻译成t在机器翻译系统中的概率。
[0024] 有益效果:本发明从整体上达到避免翻译中出现的某些整体被作为多个子部分而 分别翻译时,与其他部分发生的调序错误,以此提高翻译质量的目标。
【附图说明】
[0025] 下面结合附图和【具体实施方式】对本发明做更进一步的具体说明,本发明的上述和 /或其他方面的优点将会变得更加清楚。
[0026]图1是本发明的流程图。
【具体实施方式】
[0027] 本发明提出了一种交互式机器翻译中的新型交互方式。用户向系统提供源语言正 确翻译片段切分信息;系统在此基础上进行重新解码获得新的翻译结果。现有技术中一方 面提供的交互信息较弱,另一方面系统并没有利用本发明中用户可提供的信息进行重新解 码,或者解码方式不同。
[0028] 如图1所示,本发明公开了一种交互式机器翻译中的新型交互方式,基于本发明 开发的Web的短语统计翻译系统上开发了若干新型交互方式,即系统提供源语言正确切分 信息;系统在此基础上进行重新解码获得新的翻译结果。
[0029] 本发明所述用户向系统提供源语言正确切分信息包括如下步骤:
[0030] 步骤11,用户通过基于本发明开发的系统提供的Web平台开始翻译工作:用户在 输入框中输入需要翻译的内容,系统开始翻译,翻译结束后提供格式化的初始翻译结果。
[0031] 步骤12,用户观察步骤11中生成的初始翻译,寻找在翻译过程中短语调序问题严 重、与标准翻译的顺序差别较大、应该作为整体翻译而非分开翻译的片段,利用简单的交互 方式,比如鼠标点击,用户选择片段的起始词和结束词,提供给系统源语言正确切分信息。
[0032] 本发明所述系统接收用户提供的正确翻译片段切分信息后进行重新解码包括以 下步骤:
[0033]步骤21,系统接收用户提供的信息,即源语言的起始、结束词,根据该信息及源端 句子的词结构,从起始词开始至结束词,确定用户所要求限制的片段,转入一下步骤。
[0034] 步骤22,系统利用该信息对源语言进行重新解码(翻译),限定该切分片段内部不 与片段外的短语进行调序,即用户限定的片段作为整体进行翻译,整体内部可以调序,但必 须生成连续的整体翻译结果。由此可以解决翻译过程中某些严重的短语调序问题,在系统 得到新的翻译结果后,结构化输出。若用户接收翻译结果,则结束,否则返回21。
[0035] 本发明所述系统接收用户提供的正确切分信息后进行重新解码中步骤22包括:
[0036] 系统在机器翻译的解码(翻译)过程中,进行如下的限制:
[0037] 如果正在翻译翻译的片段与限制的切分片段无重叠,即还未进入用户限制的翻译 片段,则继续标准的机器翻译流程,不做任何另外处理工作。即
[0038] p (t | s, cst, cf lag) =p(t|s)if cf lag=false
[0039] 如果正在翻译的片段与限制的切分片段有重叠,即正在翻译的片段进入了限制的 切分片段,则限制机器翻译的过程必须将限制的切分片段完全翻译完毕后再进行其他部分 的翻译,从而达到限制该切分片段内部不与其他部分进行调序,保证该切分片段是一个完 整的整体的目标。
[0040]即
[0042]其中s为源语言短语;t为短语s的翻译结果;cst为用户给定的翻译片段;cflag为正在翻译的片段是否进入限制片段的标记,初始为false,一旦正在翻译的片段中某个翻 译短语进入了限制片段,cflag为true,当限制片段被完全翻译后,cflag重置为fa
lse; cover(a,b)表示a,b是否重叠;p(t|s,cst,cflag)表示正在翻译的短语进入了用户限定的 翻译片段cst时(此时cflag为true),源语言短语s翻译为t的概率;p(tIs)表示给定源 语言短语s翻译成目标端短语t在机器翻译系统中的概率。
[0043] 实施例1
[0044] 本实施例用户向系统提供翻译切分片段信息,系统接收用户提供的正确翻译片段 切分信息后进行重新解码运行如下:
[0045] 1.通过基于本发明开发的系统提供的Web平台开始翻译工作:用户在输入框中输 入需要翻译的内容:"在美国九一一恐怖攻击周年左右,东南亚各地的西方外交使节团纷 纷关闭。"
[0046] 2.系统开始翻译,翻译结束后提供格式化的初始翻译结果:"thellseptember terroristattacksintheunitedstates,southeastasiaaroundtheanniversaryof thewesterndiplomaticmissionshavebeenclosed. "〇
[0047] 3.观察步骤11中生成的初始翻译,寻找在翻译过程中短语调序问题严重、与标 准翻译的顺序差别较大、应该作为整体翻译而非分开翻译的片段:"恐怖攻击周年"应作为 整体被翻译,而系统将"周年"的翻译调序到第二个子句,此时用户鼠标点击片段的起始词 (恐怖)和结束词(周年),提供给系统源语言正确切分信息。
[0048] 4.系统接收到用户提供的限制片段起始词和结束词信息,分析源端句子的词结 构,确定用户所限制的具体片段信息,源端句子的第一个子句的词结构应分词为"在美国 九一一恐怖攻击周年左右",根据起始词和结束词,确定用户限制的片段为"恐怖攻击周 年
[0049] 5.在机器翻译中,句子的解码(翻译)过程是短语翻译假设扩展的过程,当解码过 程第一次进用户入限制的片段中时,cflag置为true,表示此时需要进行限制。由于在机 器翻译的解码过程中可以选择不同短语进行假设扩展,在本例中,如果选择的短语与限制 的片段("恐怖攻击周年")有重叠,如选择了"攻击",则可以进行翻译假设扩展,得到下一 个翻译假设;如果选择的短语是"东南亚",则与限制的片段无重叠,则不用该短语进行翻译 假设扩展,保证用户限制的片段在翻译过程中被翻译为一个整体。当用户限制的片段被完 全翻译(扩展)后,cflag置为false,此时限制解除,剩余的翻译假设仍然按照机器翻译的 传统流程进行扩展。
[0050] 6.利用上述的切分片段信息对源语言进行重新翻译,得到新的翻译结果:"the llseptemberterroristattacksanniversaryintheunitedstates,southeastasia acrosswesterndiplomaticmissionshavebeenclosed. "。达到番面译要求,结束。
[0051] 本发明的目标是为了在同样的环境下,提供更利于用户使用的交互方式,让用户 提供更简单的信息,同时更高效地利用用户提供的信息,更大程度地提高系统的翻译能力。
[0052] 表1所示为进行实验的配置。表2为标准的机器翻译系统与本系统中的交互方 式:用户提供源语言的一个正确翻译切分信息,系统接收到该信息之后重新解码,得到的翻 译结果的质量的对比。我们使用的基线系统是标准的基于短语的机器翻译系统。实验数据 是从MT03.ce.dev中随机抽取的120句中文句子。首先,我们用基线系统对这120句进行 翻译,利用我们的评价指标BLEU进行打分;其次,对这120句中文句子,人工利用本专利要 求的交互方式限制翻译片段,并重新解码,得到新的翻译结果。表3所示为利用人工提供正 确翻译结果与利用人工提供片段切分信息,在该120句上所需要的时间对比。
[0059]表 3
[0060] 由表1可以看出,大部分句子(71/120)存在调序问题,本发明的方法可以针对此 种问题进行限制,从而调整翻译结构。
[0061] 从表2可以看出,本发明的方法对比基线系统的技术支持用户简单的片段切分信 息输入,可以起到帮助机器提高翻译水平的效果,更大程度上地利用了用户提供的信息,提 高了翻译修正的效率和质量,其提高程度也是统计上显著的。
[0062] 从表3可以看出,对比已有的辅助翻译技术直接更改、输入短语或句子的翻译的 方法,在不人为直接提供新的翻译的前提下,通过提供简单的片段信息,能在一定程度上节 省用户交互的时间。
[0063]本发明提供了一种计算机中限定翻译片段的交互式翻译方法,具体实现该技术方 案的方法和途径很多,以上所述是本发明的优选实施方式。本发明基于短语机器翻译系统, 在基于短语的机器翻译系统中,加入限定短语边界并重新解码的交互式翻译方法,使得用 户对翻译错误的修正效率提高。在具体实验中,本发明提出的方法与简单的后编辑等简单 的交互方法相比,需要用户提供的信息更少,对用户提供的信息的利用效率更高,减少了用 户的工作量。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提 下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。本实施例中 未明确的各组成部分均可用现有技术加以实现。
【主权项】
1. 一种计算机中限定翻译片段的交互式翻译方法,其特征在于,包括如下步骤: 步骤1,用户通过系统提供的Web平台开始翻译,并向系统提供源语言翻译片段正确切 分信息; 步骤2,系统接收用户提供的正确切分信息后进行重新翻译。2. 根据权利要求1所述的一种计算机中限定翻译片段的交互式翻译方法,其特征在 于,步骤1包括如下步骤: 步骤1-1,用户在输入框中输入需要翻译的内容作为源语言,系统开始翻译,翻译结束 后得到格式化的初始翻译结果; 步骤1-2,用户观察步骤1-1中生成的初始翻译结果,在源语言中选择片段的起始词和 结束词,从而将源语言中片段正确切分信息提供给系统。3. 根据权利要求2所述的一种计算机中限定翻译片段的交互式翻译方法,其特征在 于,步骤2包括如下步骤: 步骤2-1,系统接收用户选择的源语言中片段的起始词和结束词,根据源语言的词结 构,从起始词开始至结束词,确定用户所要求限定的翻译片段; 步骤2-2,系统对源语言进行重新翻译,用户限定的翻译片段的内部不与片段外的短语 进行调序,即将用户限定的翻译片段作为整体进行翻译,用户限定的翻译片段的内部翻译 若要进行调序,必须生成连续的整体翻译结果,在系统得到新的翻译结果后,结构化输出该 翻译结果,若用户接收翻译结果,则结束本步骤,否则返回步骤2-1。4. 根据权利要求3所述的一种计算机中限定翻译片段的交互式翻译方法,其特征在 于,步骤2-2包括: 系统在机器翻译过程中,进行如下的限制: 如果正在翻译的片段与限定的翻译片段无重叠,即还未进入用户限定的翻译片段,则 继续标准的机器翻译流程,不做任何另外处理工作,即: p (t I s, cst, cf lag) = p (t I s) if (cf lag = false), 如果正在翻译的片段与限定的翻译片段有重叠,即正在翻译的片段进入了限定的翻 译片段,则系统必须将限定的翻译片段翻译完毕后再进行其他部分的翻译,从而达到限定 的翻译片段内部不与其他部分进行调序,保证限定的翻译片段是一个完整的整体的目标, 即:其中S为源语言短语;t为短语s的翻译结果;CSt为用户限定的翻译片段;cf lag为正 在翻译的片段是否进入限定的翻译片段的标记,初始值为false,一旦正在翻译的片段进入 了限定的翻译片段,cflag的值则重置为true,当限定的翻译片段被完全翻译后,cflag的 值重置为false ;cover (a, b)表示a, b是否重叠 ;p (t I s, cst, cf lag)表示正在翻译的短语 进入了用户限定的翻译片段cst时(此时Cflag为true),源语言短语s翻译为t的概率; P (t I s)表示源语言短语s翻译成t在机器翻译系统中的概率。
【专利摘要】本发明提出了一种计算机中限定翻译片段的交互式翻译方法,包括:用户输入需要翻译的句子,由系统给出原始翻译结果,当用户对系统给出的翻译结果的顺序有不同意见,通过点击操作对源语言片段进行限制,使得其作为一个完整的整体,系统根据重新翻译,避免系统翻译中存在的某些整体被作为多个子部分而分别翻译时,与其他部分发生的调序错误。对比现有的简单的网页翻译系统,本方法突出在不需要用户提供正确翻译结果的情况下,仅提供翻译片段切分信息,即可以让系统利用用户提供的信息进行重新解码,针对调序问题进行限制;对比已有的交互式翻译系统,本方法提供了更有效的交互信息及交互方式,在实际实验情况下可提高翻译质量。
【IPC分类】G06F17/28
【公开号】CN104899193
【申请号】CN201510330285
【发明人】黄书剑, 程善伯, 戴新宇, 陈家骏, 张建兵
【申请人】南京大学
【公开日】2015年9月9日
【申请日】2015年6月15日