wrapper的来历
来源:互联网 发布:mac官网彩妆口红 编辑:程序博客网 时间:2024/06/10 19:59
以下内容摘自文献
Chia-Hui Chang, Mohammed Kayed, Moheb Ramzy Girgis, et al. 2006. A Survey of Web Information Extraction Systems. IEEE transactions on knowledge and data engineering, 18(10): 1411-1428
执行信息抽取的程序被称为抽取器(extractor)或包装器(wrapper)。包装器的最初定义来自于信息集成系统的一个部件,该部件提供一个统一的查询界面,可以通过该界面从多个异构信息源中获得数据。在一个信息集成系统中,一个包装器通常是一段程序,用该程序将一个信息源(例如一个数据库服务器或一个Web服务器)进行包装,这样,信息集成系统不需要改变其核心查询应答机制,就能够访问该信息源。当信息源是Web服务器时,包装器必须通过超文本传输协议(HyperText Transfer Protocol, HTTP)查询Web服务器,收集查询结果页面;然后对HTML (HyperText Mark up Language,超文本标记语言)文档执行信息抽取,获取其中的内容;最后把抽取结果和其他数据源的抽取结果集成起来。在这三个过程中,信息抽取往往得到更多的关注,有一些人甚至直接使用包装器来描述抽取程序。一个包装器通常执行一个模式匹配过程(如某种有限自动机),匹配过程的依据是一组抽取规则。
Chia-Hui Chang, Mohammed Kayed, Moheb Ramzy Girgis, et al. 2006. A Survey of Web Information Extraction Systems. IEEE transactions on knowledge and data engineering, 18(10): 1411-1428
执行信息抽取的程序被称为抽取器(extractor)或包装器(wrapper)。包装器的最初定义来自于信息集成系统的一个部件,该部件提供一个统一的查询界面,可以通过该界面从多个异构信息源中获得数据。在一个信息集成系统中,一个包装器通常是一段程序,用该程序将一个信息源(例如一个数据库服务器或一个Web服务器)进行包装,这样,信息集成系统不需要改变其核心查询应答机制,就能够访问该信息源。当信息源是Web服务器时,包装器必须通过超文本传输协议(HyperText Transfer Protocol, HTTP)查询Web服务器,收集查询结果页面;然后对HTML (HyperText Mark up Language,超文本标记语言)文档执行信息抽取,获取其中的内容;最后把抽取结果和其他数据源的抽取结果集成起来。在这三个过程中,信息抽取往往得到更多的关注,有一些人甚至直接使用包装器来描述抽取程序。一个包装器通常执行一个模式匹配过程(如某种有限自动机),匹配过程的依据是一组抽取规则。
- wrapper的来历
- SUN 的来历
- 小日本的来历
- 洗钱的来历
- 姓氏的来历
- 名字的来历
- 姓氏的来历
- 英语月份的来历
- 皮鞋的来历
- 魔羯座的来历
- 闰年的来历
- Honeymoon(蜜月)的来历
- 各省名称的来历
- TJJTDS的来历
- 馒头的来历
- Apache的来历
- 情人节的来历
- 元旦的来历
- 一对IT恋人的对话
- 管理员经常使用的表和视图
- 一个DSP高手的成长之路(转载,很真实的经历)
- 用画笔留下北京古城墙最后"遗照"的人:张先得
- S3C2410外围存储系统的研究与设计
- wrapper的来历
- 编译linux-2.6.20内核出现scripts/mod/sumversion.c:384: error: ‘PATH_MAX’ undeclared 错误
- 【Windows源码分析】(一)初始化内核与执行体子系统
- Jack Dangermond先生的一段话
- ThoughtWorks求职记1
- IIS服务重装有讲究
- OpenID资源大全
- 城墙的最后拆除
- Web实战:保护Web服务器数据库