汉英口语存在的问题及对策

来源:互联网 发布:工单提交系统源码php 编辑:程序博客网 时间:2024/06/10 05:27

        最近看了看IWSLT2008,IWSLT2010的相关文章,总体上的感觉就是大家的做法大同小异。通用的做法都是拿几个系统过来做个系统融合,在调调参数,完成,OK。但在前处理后处理的做法上各家单位就是“八仙过海,各显神通”了。我想想也是这样,主体方法测评的差距不大,什么唬人的模型拿到现在中用BLEU差别并不太大。但如果处理好细节问题,完全可以在最终的性能上PK掉其他的单位。这也就是所谓的“细节决定成败”吧。

        目前,口语翻译存在的两个大问题。

        第一个问题就是语料库规模不大。比起新闻语料,口语语料规模还是太小了。这就导致一个问题,在词对齐效果上不是很好。这样一来再牛的模型也表现不佳。有的单位针对词对齐效果不佳方面做改进,选用几个不同的词对齐工具进行交(并)集融合,或者使用投票机制,对齐出现多的进行使用(比如使用三个对齐工具,有个对齐在两个工具中出现,就选用这个对齐)。有的单位有策略添加语料,直接添加其他语料,会对一些口语中特殊表达的词或者短语翻译产生影响。可以在添加语料时候,选择和口语相关的句子进行添加,其他的句子抛弃。

       第二个问题是口语中的一些特殊表达。首先是对中文的数词时间表达式,需要使用启发规则进行处理。其次,分词需要考虑口语的特性进行改进。最后就行句型的处理,疑问句由于调序距离较长比较难翻译。对句型的处理上,自动化所提出的一个分类的方法进行处理,他讲句型分为三类:特殊疑问句(中文翻译为以wh-开头的疑问句),一般疑问句和非疑问句。使用句子中的词作为特征训练SVM分类器,对句子进行分类。然后,对每个不同的句型,使用启发式规则识别出其中需要调序的部分。最后,针对不同的句型,对需要调序部分进行特定的调序。

        有的单位也去做些领域自适应的工作,或者添加语言模型。这一块在08,10年的工作中没有涉及。就不罗列了。

        啰嗦这么多,就是为了mark一下,以备来日查询。

原创粉丝点击