推荐引擎测试数据汇总

来源:互联网 发布:黑色星期天 知乎 编辑:程序博客网 时间:2024/06/10 03:55

http://blog.sina.com.cn/s/blog_48e0ae280100h58x.html

推荐引擎测试数据汇总

1.Movielens 电影评分数据
  基本数据描述:包括以下三个数据集:
    a.943个用户对1682个电影的10万条评分
    b.6040个用户对3900个电影的1百万条评分
    c.71567个用户对10681个电影的1千万条评分
    http://www.grouplens.org/

2.Jester 笑话评分数据
  基本数据描述:该数据集包含了1999年4月到2003年5月之间,来自73,421个用户对100个笑话的4,100,000条评分。评分尺度从-10到+10。
  http://www.ieor.berkeley.edu/~goldberg/jester-data/

3.Book-Crossing 书籍评分数据
  基本数据描述:包含了278,858个用户对271,379本书籍的1,149,780条评分。该数据集由Cai-Nicolas Ziegler 在2004年8-9月用4周的时间从 Book-Crossing 社区用网络爬出。
  http://www.informatik.uni-freiburg.de/~cziegler/BX/

4.网上约会评分数据
  基本数据描述:来自libimseti.cz约会网站的数据,包含了截至2006年4月4日的135,359个用户对168,791个约会对象档案的17,359,346匿名评分数据。
  http://www.ksi.ms.mff.cuni.cz/~petricek/data/

二、用户行为(无评分)数据
 

美国在线搜索查询数据
    基本数据描述: 包含65万用户在3个月内2000万的搜索查询数据。该数据结构按照匿名用户ID来索引。
    http://www.gregsadetsky.com/aol-data/

 

北大光华管理学院 苏萌 教授
转载请注明出处: http://www.baifendian.com/forum/viewthread.php?tid=51