Hulu的实验报告:用点击率评测推荐系统合适吗?
AngelAndAngel
2012-04-05
有朋友说RecSys 2010有一篇来自Hulu的短文挺有意思,打印出来看了看,是Hulu北京研发中心(学名北京HULU软件技术开发有限公司?)的研究报告《Do clicks measure recommendation relevancy? an empirical user study》,的确是不错的工作。这是一个数据分析报告:推荐算法的效果可以用离线数据集来评测,也可以上线后评测用户的反应,从而评测算法性能;点击率是在线评测方式最常用的指标,本文通过实验检查点击率到底是不是一个好的评测指标。
在Web检索领域有很多基础数据分析工作,比如Andrei Broder的《A taxonomy of web search》,对后续的算法研究起到了方向性的指导作用。相比之下,在推荐领域,新算法的研究成果层出不穷,但有价值的基础数据分析工作则非常少,这不能不说是一个遗憾。这一方面可能是受推荐系统产品形态的限制,推荐系统一般都是一个大系统的组成部分,而不象搜索引擎那样作为一种独立产品形态存在,要把推荐系统数据独立抽取出来作分析难度可能会更大一点;另一方面,多数情况下,推荐技术只是业务成功的若干技术因素之一,因而在推荐系统研发上的投入也会有一定限制,这不像在搜索领域,搜索技术基本就是唯一的技术因素。正因为如此,Hulu花费人力来做这个数据分析工作,一定程度上说明他们对这一领域的重视。一两个月前clickstone在Resyschina.com有个帖子称赞Hulu的研发氛围,我还怀疑是个软文,现在看来也许不是这样的,我道歉 当然,说这个工作有意思,并不代表我对它的结论没有疑问。报告有两个结论: 1)在搜索领域有个被广泛认可或验证了的的假定,排在靠前位置的搜索结果得到的点击会比靠后位置的结果多得多,这个假定不适用于推荐系统。他们的实验表明,推荐产品的排列位置对点击影响甚微。我想这可能是由两方面的因素造成的。第一,在搜索引擎上,用户有时候搜索目标是明确的,看到期待的结果后,就不继续往下浏览了,但在推荐系统上,用户往往没有明确的目标,可能更倾向于检查所有的推荐结果(类似于Border所说的informational queries)。第二,UI设计的不同:在多数搜索引擎,用户第一眼只能看到前两三个搜索结果,要看到再靠后的结果有一定成本(移动视线,或者拖动滚动条),而对推荐系统来说,一般情况下一眼望去前五个推荐结果都可以看得到(实验报告考虑的就是五个结果的情况)。当然,可能还有别的因素,很可惜,Hulu的实验报告对这些问题没有进一步的分析。 2)在以NDCG为指标的离线测评中性能好的算法,在在线测评中点击率反而比较低,因此把点击率作为在线测评指标要谨慎。这个结论留下的疑问更多一点。首先,既然前一个结论已经提到,位置信息在推荐测评中不重要,这里却又以强调位置信息的NDCG做参照,似乎不太合适。其次,报告认为,在在线测评中,热门视频会得到更多点击,这可能是造成NDCG低的算法点击率高的原因,可惜,对这一猜想又没有实证的数据分析。 另外,报告对比参考指标(NDCG)和点击率,来检查点击率的有效性,这很难说是不是一个合理的方法。要确定一个技术评价指标是否合理,主要还是看他同业务指的符合程度,而不是同另一个技术指标作对比,这个在《RMSE for Top-k Recommendation: 高手的盲点?》更详细地讨论过。Hulu的实验报告想剥离热门程度带来的影响,单独考察相关性,带来了这个问题。 Hulu北京研发中心好像建立还不到一年,要求他们短时间考虑到所有问题显然不现实,希望能看到他们后续的研究结果。 最后,在RecSys 2010中还看到另一个有意思的数据分析工作《Understanding choice overload in recommender systems》。都是去年9月的文章了,现在不做推荐系统的工作了,对新的研究结果跟踪的的确有点慢。 |