平行网页获取

来源：互联网发布：mac ppt导出图片编辑：程序博客网时间：2024/06/08 19:49

这段时间看了些资料关于获取平行网站，文档写的详细明了，于是根据自己的实际开发总结以下几条，希望能有其他的看法；

1：关于语言识别技术使用。其中初期的版本识别编码是依据两种中：一种是Nchardet来识别网页编码，在分析语言；另一种是根据字符编码范围来识别（不可取）；后期的识别语言中，得到公司同事的帮忙实现了基于语料库的识别，根本上解决了语言识别问题；

2：URL 模式匹配；这里的关键对象和集成的使用；这里基本思想是，基类包含BasePathName,BaseBaseName，然后中文和英文都继承此类，然后分别对中文和英文生成pathname和basename,在从中文对象中派生出英文对照模式；同时英语对象也是这样，生成中文匹配表达式，然后对列表进行比较，如果找到匹配数据，增大其权重；最后取出最大的权重匹配模式。

3：基于语言库的段落对照；首先，获取中文的段落集合，进行翻译后在以找到的英文网页中，匹配英文吻合。