平行网页获取

来源:互联网 发布:mac ppt导出图片 编辑:程序博客网 时间:2024/06/08 19:49

这段时间看了些资料关于获取平行网站,文档写的详细明了,于是根据自己的实际开发总结以下几条,希望能有其他的看法;

1:关于语言识别技术使用。其中初期的版本识别编码是依据两种中:一种是Nchardet来识别网页编码,在分析语言;另一种是根据字符编码范围来识别(不可取);后期的识别语言中,得到公司同事的帮忙实现了基于语料库的识别,根本上解决了语言识别问题;

2:URL 模式匹配;这里的关键对象和集成的使用;这里基本思想是,基类包含BasePathName,BaseBaseName,然后中文和英文都继承此类,然后分别对中文和英文生成pathname和basename,在从中文对象中派生出英文对照模式;同时英语对象也是这样,生成中文匹配表达式,然后对列表进行比较,如果找到匹配数据,增大其权重;最后取出最大的权重匹配模式。

3:基于语言库的段落对照;首先,获取中文的段落集合,进行翻译后在以找到的英文网页中,匹配英文吻合。

原创粉丝点击