平行网页获取
来源:互联网 发布:mac ppt导出图片 编辑:程序博客网 时间:2024/06/08 19:49
这段时间看了些资料关于获取平行网站,文档写的详细明了,于是根据自己的实际开发总结以下几条,希望能有其他的看法;
1:关于语言识别技术使用。其中初期的版本识别编码是依据两种中:一种是Nchardet来识别网页编码,在分析语言;另一种是根据字符编码范围来识别(不可取);后期的识别语言中,得到公司同事的帮忙实现了基于语料库的识别,根本上解决了语言识别问题;
2:URL 模式匹配;这里的关键对象和集成的使用;这里基本思想是,基类包含BasePathName,BaseBaseName,然后中文和英文都继承此类,然后分别对中文和英文生成pathname和basename,在从中文对象中派生出英文对照模式;同时英语对象也是这样,生成中文匹配表达式,然后对列表进行比较,如果找到匹配数据,增大其权重;最后取出最大的权重匹配模式。
3:基于语言库的段落对照;首先,获取中文的段落集合,进行翻译后在以找到的英文网页中,匹配英文吻合。
- 平行网页获取
- 平行时空
- 平行空间
- 平行處理概觀
- 堆栈平行
- 平行越权
- C#网页源代码获取
- 获取网页的标题
- 获取网页内容
- C#获取网页内容
- c# 获取网页内容
- 获取网页内容
- java 获取网页内容
- C#获取网页内容
- php获取网页内容
- .NET获取网页源代码
- PHP 获取网页title
- HttpClient 获取网页内容
- 开通CSDN博客
- ORACLE 游标
- java
- 我该如何忘记她啊?
- 心情
- 平行网页获取
- 什么是Dom4j及其初级使用方法
- 通过HttpWebRequest在后台对WebService进行调用
- Windows 7开机启动numlock小键盘
- 未完成需要一直想的题目
- 《Pragmatic Programmer》读后感(一):为何会有如此多的破窗户?
- 对CEdit进行继承,支持DropFile得到文件名
- BUSYBOX编译备忘录
- C# 调用Get,Post,Soap调用WebService