Automatic Search Engine Performance Evaluation with Click-through Data Analysis

来源:互联网 发布:大华电子秤软件 编辑:程序博客网 时间:2024/06/02 12:46

今天在搜狗实验室的主页上面浏览资源的时候看到的一篇论文,和查询意图分类有一些相似,但是这也是意图分类的一个很神奇的应用:搜索引擎性能的自动评测。论文题目《Automatic Search Engine Performance Evaluation with Click-through Data Analysis》,翻译过来是《基于点击信息的搜索引擎性能自动评测》,作者是Yiqun Liu

 

摘要

搜索引擎研究中一个很重要的话题就是性能的评价。传统的评价方法更多的依赖于人工的努力,所以常常是很耗时的。通过点击数据的分析,我们提出了一个自动性能评价的方法。该方法产生“导航类”查询和其答案。最后的试验基于大规模的日志,并和传统的评价进行对比。

 

基于点击信息的评测

搜索引擎在评测时通常都是看他在面对不同信息需求时的有效性。我们的注意力集中在导航类查询,原因:用户有这个需求、只有一个标准答案。

特征抽取和导航类查询选择

本论文的作者以前的一篇论文中,我已经说过了,也就是“通过点击信息来意图分类”中。准确率能够达到80%以上,所以在这里用来区分导航类和其他的类别。

自动答案标注

点击的分布是一个很有用的特征,定义为:CD( q ) = ( session of q that involves clicks on Rmost ) / ( session of q )。对于导航类的查询q,Rmost被定义为被最多人点击的答案。提供了一种用点击信息对查询目标的结果进行标注的可能。也就是对于所有的结果,用上面的公式找到最大值的一个R。

 

实验结果

首先是答案的自动标注答案实验,准确率达到了96%以上,准确率的评定是人工的。然后是测试性能,主要是比较传统的测试和本方法是否结果一样的问题。论文采用的是MRR距离,结果显示两种评测方式结果都是一致的。这里的MRR是Mean Reciprocal Rank的意思,其实很简单。比如搜索引擎的结果通常会按照相关度进行排序,假设正确答案排在了第k位,那么RR就是1 / k,这里的再对所有的查询取均值即可。这里也可以看出为什么一定要用导航类,因为导航类通常都是只有一个结果,MRR正好适合使用。这样的话评测需要大量的标注了准确答案的评测,所以就引出了自动答案标注的算反。所以再查询意图分类中的导航类分类方法被用出来。

 

 

这篇论文从“评价搜索引擎”的角度出发,利用查询意图分类中的导航类分类准确率高的特点,来进行答案的自动标注。

原创粉丝点击