搜索引擎-查询

来源:互联网 发布:帝国cms 模型 编辑:程序博客网 时间:2024/06/10 09:23

基本过程:1,用户提交查询词;2,查询词分词得到检索词;3,通过检索系统得到检索词所对应的文档;4,对文档进行排序;5,获得文档内容(摘要);6,生成页面。

TF/IDF计算检索向量的权重。

向量空间模型计算检索向量和文档向量的相关度;布尔模型要求每个检索词都出现,计算速度快。

实际中要结合两种方法,先按照布尔模型求交集,再按照向量空间模型计算。

多文档列表求交,先求最短的文档的交集,可以提高效率。

检索结果按照堆排序,可以优先显示相关度最高的文档。

自动摘要获取方法:1,在文档中标记查询词出现的位置;2,从第一个查询词开始,依次求出指定窗口长度的文本作为候选窗口;3,计算候选窗口的评分,取评分最高的;4,尽量取头去尾。

生成页面很简单,取文档的摘要和url即可。

搜索页面缓存,最常搜索页面载入缓存内存;次常搜索页面载入磁盘缓存;最常检索单词结果页载入内存缓存。

推测用户查询意图:根据查询日志分析,方法具体问题具体分析;

查询系统发展方向:1,推测用户意图;2,细分领域突破;3,优化查询结果,例如页面聚类;4,个性化服务。

原创粉丝点击