汉英口语存在的问题及对策

来源：互联网发布：工单提交系统源码php 编辑：程序博客网时间：2024/06/10 05:27

最近看了看IWSLT2008，IWSLT2010的相关文章，总体上的感觉就是大家的做法大同小异。通用的做法都是拿几个系统过来做个系统融合，在调调参数，完成，OK。但在前处理后处理的做法上各家单位就是“八仙过海，各显神通”了。我想想也是这样，主体方法测评的差距不大，什么唬人的模型拿到现在中用BLEU差别并不太大。但如果处理好细节问题，完全可以在最终的性能上PK掉其他的单位。这也就是所谓的“细节决定成败”吧。

目前，口语翻译存在的两个大问题。

第一个问题就是语料库规模不大。比起新闻语料，口语语料规模还是太小了。这就导致一个问题，在词对齐效果上不是很好。这样一来再牛的模型也表现不佳。有的单位针对词对齐效果不佳方面做改进，选用几个不同的词对齐工具进行交（并）集融合，或者使用投票机制，对齐出现多的进行使用（比如使用三个对齐工具，有个对齐在两个工具中出现，就选用这个对齐）。有的单位有策略添加语料，直接添加其他语料，会对一些口语中特殊表达的词或者短语翻译产生影响。可以在添加语料时候，选择和口语相关的句子进行添加，其他的句子抛弃。

第二个问题是口语中的一些特殊表达。首先是对中文的数词时间表达式，需要使用启发规则进行处理。其次，分词需要考虑口语的特性进行改进。最后就行句型的处理，疑问句由于调序距离较长比较难翻译。对句型的处理上，自动化所提出的一个分类的方法进行处理，他讲句型分为三类：特殊疑问句（中文翻译为以wh-开头的疑问句），一般疑问句和非疑问句。使用句子中的词作为特征训练SVM分类器，对句子进行分类。然后，对每个不同的句型，使用启发式规则识别出其中需要调序的部分。最后，针对不同的句型，对需要调序部分进行特定的调序。

有的单位也去做些领域自适应的工作，或者添加语言模型。这一块在08，10年的工作中没有涉及。就不罗列了。