Automatic Search Engine Performance Evaluation with Click-through Data Analysis

来源：互联网发布：大华电子秤软件编辑：程序博客网时间：2024/06/02 12:46

今天在搜狗实验室的主页上面浏览资源的时候看到的一篇论文，和查询意图分类有一些相似，但是这也是意图分类的一个很神奇的应用：搜索引擎性能的自动评测。论文题目《Automatic Search Engine Performance Evaluation with Click-through Data Analysis》，翻译过来是《基于点击信息的搜索引擎性能自动评测》，作者是Yiqun Liu。

摘要

搜索引擎研究中一个很重要的话题就是性能的评价。传统的评价方法更多的依赖于人工的努力，所以常常是很耗时的。通过点击数据的分析，我们提出了一个自动性能评价的方法。该方法产生“导航类”查询和其答案。最后的试验基于大规模的日志，并和传统的评价进行对比。

基于点击信息的评测

搜索引擎在评测时通常都是看他在面对不同信息需求时的有效性。我们的注意力集中在导航类查询，原因：用户有这个需求、只有一个标准答案。

特征抽取和导航类查询选择

本论文的作者以前的一篇论文中，我已经说过了，也就是“通过点击信息来意图分类”中。准确率能够达到80%以上，所以在这里用来区分导航类和其他的类别。

自动答案标注

点击的分布是一个很有用的特征，定义为：CD( q ) = ( session of q that involves clicks on Rmost ) / ( session of q )。对于导航类的查询q，Rmost被定义为被最多人点击的答案。提供了一种用点击信息对查询目标的结果进行标注的可能。也就是对于所有的结果，用上面的公式找到最大值的一个R。

实验结果

首先是答案的自动标注答案实验，准确率达到了96%以上，准确率的评定是人工的。然后是测试性能，主要是比较传统的测试和本方法是否结果一样的问题。论文采用的是MRR距离，结果显示两种评测方式结果都是一致的。这里的MRR是Mean Reciprocal Rank的意思，其实很简单。比如搜索引擎的结果通常会按照相关度进行排序，假设正确答案排在了第k位，那么RR就是1 / k，这里的再对所有的查询取均值即可。这里也可以看出为什么一定要用导航类，因为导航类通常都是只有一个结果，MRR正好适合使用。这样的话评测需要大量的标注了准确答案的评测，所以就引出了自动答案标注的算反。所以再查询意图分类中的导航类分类方法被用出来。

这篇论文从“评价搜索引擎”的角度出发，利用查询意图分类中的导航类分类准确率高的特点，来进行答案的自动标注。