Sphinx全文检索引擎和Coreseek全文检索服务器简介

来源:互联网 发布:mysql 表分区查询 编辑:程序博客网 时间:2024/06/02 17:39
Sphinx (http://www.sphinxsearch.com/) 是SQL Phrase Index的缩写,C++实现。
Sphinx是一个独立的搜索引擎,意图为其他应用提供高速、低空间占用、高结果相关度的全文搜索功能。
Sphinx可以非常容易的与SQL数据库和脚本语言集成。系统内置MySQL和PostgreSQL 数据库数据源的支持,也支持从标准输入读取特定格式的XML数据。
搜索API支持PHP、Python、Perl、Rudy和Java,并且也可以用作MySQL存储引擎。
Coreseek (http://www.coreseek.com) 全文检索服务器是在Sphinx基础上开发的中文全文检索软件。

Sphinx的特性
高速的建立索引(在当代CPU上,峰值性能可达到10 MB/秒);
高性能的搜索(在2 – 4GB 的文本数据上,平均每次检索响应时间小于0.1秒);
可处理海量数据(目前已知可以处理超过100 GB的文本数据, 在单一CPU的系统上可处理100 M 文档);
提供了优秀的相关度算法,基于短语相似度和统计(BM25)的复合Ranking方法;
支持分布式搜索;
provides document exceprts generation;
可作为MySQL的存储引擎提供搜索服务;
支持布尔、短语、词语相似度等多种检索模式;
文档支持多个全文检索字段(最大不超过32个);
文档支持多个额外的属性信息(例如:分组信息,时间戳等);
停止词查询;
支持单一字节编码和UTF-8编码;
原生的MySQL支持(同时支持MyISAM 和InnoDB );
原生的PostgreSQL 支持.

如何获得Sphinx

Sphinx 可以从官方网站http://www.sphinxsearch.com/ 下载,支持中文分词的Sphinx可以从

http://www.coreseek.com/ 下载。

参考

全文检索引擎 Sphinx
http://www.oschina.net/p/sphinx
CoreSeek介绍
http://www.cppblog.com/AutomateProgram/archive/2011/05/23/146969.aspx
scrapy+sphinx搭建搜索引擎
http://www.kaishixue.com/tech/sphinx/scrapy-sphinx/

原创粉丝点击