lucene 之 全文检索概述
来源:互联网 发布:古代衣服淘宝 编辑:程序博客网 时间:2024/06/02 13:42
我们日常生活中的数据可以分成两种,一种是结构化数据,还有一种是非结构化数据。
结构化数据就是固定格式和有限长度的数据,比如数据库和元数据等等。
非结构化就是无固定格式和不定长的数据,比如邮件和word文档。
还有介于两者之间的,半结构化数据,比如XML,html等,看具体需求可以有不同的处理方法。
非结构化数据还可以叫做全文数据。搜索引擎一般是针对这种数据来索引。
一种最直观的方法可以顺序扫瞄,速度非常慢。还有一种方法,我们把非结构数据中的一些信息抽取出来,然后变成结构化的,从而达到搜索相对较快的目的。重新抽取出来的信息我们称之为索引。举个例子,字典的拼音表就相当于索引,对于每个字的解释是非结构化的,如果字典没有拼音表,只能顺序扫描,然而字的某些信息是可以提取出来进行结构化处理的,比如读音就比较结构化,分声母和韵母,分别几种可以一一举例,于是将读音拿出来按照一定的顺序排列,每一项读音指向此字的详细解释的页数。
从字符串到文件的索引被成为反向索引。每个字符串指向包含此字符串的文档链表,这种文档链表成为倒排表。有了索引,保存的信息和要搜索的信息一致,可以大大加快搜索的速度。
创建索引的过程如下所示:
1. 准备原文档
2. 分词组建(Tokenizer)将文档分成一个个单独的词,去标点符号,去停用词
3. 继续传给语言处理组件,对于英语,将单词缩减成词根形式等等
4. 传给索引组建(indexer), 利用得到的词创建一个字典,对字典按照字母序排序,合并成文档倒排。
5. 根据相关性,对结果进行排序。
0 0
- lucene 之 全文检索概述
- Lucene全文检索之HelloWorld
- 全文检索之lucene入门
- lucene全文检索概述 简介 整体知识
- 全文检索Lucene入门之lucene简介
- 全文检索之lucene入门篇HelloWorld
- 全文检索之lucene入门篇HelloWorld
- 全文检索之Lucene和Solr
- 【Lucene】Apache Lucene全文检索引擎架构之入门实战
- 【Lucene】Apache Lucene全文检索引擎架构之构建索引
- 【Lucene】Apache Lucene全文检索引擎架构之搜索功能
- 【Lucene】Apache Lucene全文检索引擎架构之入门实战
- 【Lucene】Apache Lucene全文检索引擎架构之构建索引
- Lucene 全文检索实践
- lucene 全文检索简介
- lucene 全文检索简介
- Lucene 全文检索
- 全文检索Lucene说明书
- ssh 免密码登陆
- java事件监听学习——通过键盘方向键控制小球移动
- find 用法以及经典案例
- Java 文件转Zip实现
- 让你一张图看懂布局 游戏公司的泛娱乐战略布局
- lucene 之 全文检索概述
- attr()和prop()的区别
- Linux下设置本地yum安装源
- R第一问 CentOS6.5 修改 /etc/sudoers 提示只读
- lucene 4.6 之索引文件格式
- java 快排
- 实习总结——解决问题与总结知识
- centos 搭建 httpd 服务器 以及配置多域名 反向代理
- 如何将mfc中的数据导入到Excel中