[lucene]倒排笔记
来源:互联网 发布:苹果windows系统黑屏 编辑:程序博客网 时间:2024/06/10 09:06
lucene的倒排算法相关笔记:
·计算文章中关键字出现的位置以及出现频率,以便于精准定位。
·百度的定义:用记录的非主属性查找记录而组织的文件,叫倒排文件,或者 倒排索引,次索引
·lucene不使用B树,按照字母排序,所以使用二分法快速定位,效率高。
·lucene 有字典文件,频率文件,位置文件,其中字典文件保存有指向频率文件和位置文件的指针,可以以此找到频率信息和坐标信息。
·索引结构:
【关键字】 【文章号】/【出现频率】 【出现位置】
出现频率即出现次数;
出现位置从1开始计数,是当前文章的所有关键字的顺序计数的数字,出现多次以此排列展示位置,如 1,3,7 多个文件也一样,如第一个文章中出现2次分别 2,4,第二篇文章出现1次 2,则位置为:2,2,4。以此排列。
索引文件采用压缩,压缩格式 <前缀长度,后缀> ,前一个是 阿拉伯,后一个是阿拉伯语,压缩后后面一个是 <3,语>
数字压缩仅记录与前面数字的差值。
仅此简单记录一下。
- [lucene]倒排笔记
- Lucene 倒排原理
- 倒排索引--lucene
- lucene倒排索引
- Lucene倒排索引
- Lucene倒排索引
- Lucene倒排索引
- lucene倒排索引原理
- Lucene倒排索引原理
- Lucene倒排索引原理
- Lucene倒排索引原理
- Lucene倒排索引原理
- Lucene倒排索引原理
- Lucene倒排索引原理
- Lucene倒排索引原理
- Lucene倒排索引原理
- Lucene倒排索引原理
- lucene倒排索引原理
- JAVA异常集
- 提高工作效率之利器 --- 十大在线任务管理网站
- 真正解决HtmlAgilityPack抓取网页 中文乱码问题
- 常用正则表达式
- ifconfig 命令的用法
- [lucene]倒排笔记
- 优秀驾驶员开车技巧
- SPSS学习
- 结合Maven2进行J2EE项目构建
- InCallScreen.java/enableTouchLock(boolen enable)方法分析
- 对于Struts框架中的令牌机制
- 空闲期
- 移植2.6.30.4到MINI2440的学习笔记
- Maven入门--概念与实例