信息检索导论(第一章) 布尔检索
来源:互联网 发布:网络骚扰电话怎么举报 编辑:程序博客网 时间:2024/06/02 09:58
第一章 布尔检索
信息检索(IR):是从大规模非结构化数据(通常是文本)的集合(通常保存在计算机上)中找出满足用户信息需求的资料(通常是文档)的过程,其中根据用户需求进行的文本聚类,分类也属于信息检索的范畴;
传统线性扫描的检索方式弊端:大规模数据集背景下的检索性能可能较低;不能满足更灵活的信息匹配要求;不能对满足匹配的文件进行排序得到最佳列表;
非线性扫描:构建文档关联矩阵,事先记录每篇文档是否包含某些词项,其中,每行代表每个词项出现过的文档,每列代表每篇文档包含的词项;
布尔检索:利用文档关联矩阵通过AND,OR,NOT实现词项的逻辑查询;
ad hoc检索(ad hoc retrieval)任务:在这个任务中,任意一个用户的信息需求通过一次性的、由用户提交的查询传递给系统,系统从文档集中返回与之相关的文档;
过滤(filtering):与ad hoc检索不同的是,ad hoc检索中信息需求动态变化,数据库内的文档内容相对静止,而在过滤问题中,信息需求在一段时间内是保持不变的,数据库中的文献是动态变化的,这类问题相似于推送服务;
信息检索系统效果的两个评价指标:①正确率;②召回率
倒排索引(inverted index):通过词项映射到文档的一种检索方式,每个词项构成一个单链表,每个节点中保存着词项出现的文档编号,除此之外还保存着例如词项在文档中的出现次数与位置等信息,这样的单链表也被称为倒排记录表(posting),所有词项的倒排记录表称为全体倒排记录表(postings),其中,所有词项组成一个词典,词典中可能包含每个词项出现的频率等信息,尤其对于ad hod检索,倒排索引是其他数据结构无法替代的高效索引结构;
构建倒排索引:
① 收集需要建立索引的文档;
② 将每篇文档内容进行词条化(token);
③ 对词条化后的每个词项进行归一化处理,作为最终的词项;
④ 对所有文档按照其出现过的词项建立倒排索引;
布尔查询处理:处理两个有序单链表的问题;
布尔查询优化:先处理其中较短的倒排记录表,因为所有的中间结果大小都不会超过最短的倒排记录表;
- 信息检索导论(第一章) 布尔检索
- 信息检索导论(译):第一章 布尔检索(1)
- 信息检索导论:第一章 布尔检索 学习笔记
- 信息检索导论学习笔记(一) 布尔检索
- [笔记]信息检索导引-第一章-布尔检索
- 《信息检索导论》第一章总结
- 信息检索-布尔检索
- 【信息检索导论】第1章 布尔检索
- 信息检索导论——一、布尔检索
- 第一章:布尔检索模型
- 第一章 布尔检索
- 信息检索笔记-布尔检索
- 信息检索之布尔检索
- 信息检索导论(王斌译)
- 现代信息检索2-----布尔检索(Boolean Retrieval)
- 信息索引导论学习笔记(1)——布尔检索
- 信息检索技术——布尔检索
- 学习笔记:信息检索(1) 布尔检索
- 两个阿里云linux服务器之间传文件
- table表格网页布局的特点和影响
- 关于eclipse和myeclipse用同一个Tomcat时出现的问题
- 01_求给定字符串最长重复子串
- OpenGL实现相机视频NV21格式转RGB格式
- 信息检索导论(第一章) 布尔检索
- C语言实验——图形输出(字符常量练习)
- 工单管理系统
- Linux: vi编辑文件
- 23种设计模式(9):访问者模式
- stm32单片机ISP烧写
- C++11 常用语法
- 软键盘相关
- 集合交集算法挑战