推荐系统实践笔记2 利用用户行为数据

AngelAndAngel 2012-11-28

推荐系统实践笔记2 利用用户行为数据
基于用户行为分析的推荐算法是个性化推荐系统的重要算法，一般称为协同过滤算法。
很多互联网业务会把多种原始日志按照用户行为汇总成会话日志，其中每个会话表示一次用户行为和对应的服务
会话日志通常存储在分布式数据仓库中，如支持离线分析的Hadoop Hive和支持在线分析的Google Dremel
互联网很多数据都遵循长尾分布：即热门的物品往往只占物品总和的很小部分，推荐系统的作用不在于推荐热门产品，而是更多的推荐长尾部分，让更多的产品被推荐出来。

用户活跃度和物品流行度的关系：一般新用户倾向于浏览热门的物品，因为他们对网站还不熟悉，而老用户会逐渐开始浏览冷门的物品，也就是说，用户越活跃，越倾向浏览冷门的物品。

业界运用最广泛的算法是基于领域的算法，此算法包含两个算法，
基于用户的协同过滤算法：这种算法给用户推荐和他兴趣相似的其他用户喜欢的物品。
基于物品的协同过滤算法：这种算法给用户推荐和他之前喜欢的物品相似的物品。

基于用户的协同过滤算法包括两个步骤
1，找到和目标用户兴趣相似的用户集合
2，找到这个集合中的用户喜欢的，且目标用户没有听说过的物品推荐给目标用户

协同过滤利用用户行为计算相似度，假如N(u1)和N(u2)分别表示用户u1,u2有兴趣（喜欢）
的物品集合，那么u1，u2的相似度f(u1,u2)=（N(u1) & N(u2)）/sqrt(N(u1) * N(u2))
为了计算方便，可以在库中建立物品到用户的倒排表，即存储每个物品有哪些些用户产生过行为。
通过相似度计算，找出了用户u的前k个最相似用户，那么用户u对i的兴趣度=与这k个用户相似度*每个用户对i的兴趣（偏好评分，单一行为可以全设为1，另外这k个用户应该与对物品i有过行为的用户做个交集）之和。

用户相似度有改进的空间，一般来说，两个用户对冷门物品采取过同样的行为更能说明他们兴趣的相似度。
可以采用如下公式计算相似度
f(u1,u2)=（i ∈ N(u1) & N(u2) ）*(1/log1+N(i)) /sqrt(N(u1) * N(u2))此公式通过 (1/log1+N(i))惩罚了用户u1，u2共同兴趣列表中热门物品对他们相似度的影响

基于物品的协同过滤算法
这个算法目前是应用最多的。该算法认为，物品A和物品B具有很大的相似度是因为喜欢物品A的用户大都也喜欢物品B。
基于物品的协同过滤算法包括两个步骤
1，计算物品之间的相似度
2，根据物品的相似度和用户的历史行为给用户生成推荐列表。
计算物品相似度和用户行为相似度差不多，假如N(i)表示喜欢物品i的用户数，N(j)表示喜欢物品j的用户数，那么i和j的相似度f(i,j)=（N(i) & N(j)）/sqrt(N(i) || N(j))
计算itemcf也可以首先建立用户-物品倒排表,即对每个用户建立一个包含他喜欢的物品的列表，然后对于每个用户，将他物品列表中的物品两两在共现矩阵这种加1.
通过相似度计算，找出了物品i的前k个最相似物品，那么用户u对i的兴趣度=与这k个物品相似度*用户对这k个物品的评分（没有对这个用户的行为则为0分，当然一般这种数据应该先用这k个物品与用户的历史列表做个交集，排除无行为的数据）之和
基于ItemCf计算用户u对一个物品j的兴趣的描述：和用户历史兴趣感兴趣的物品越相似的物品，越有可能在用户的推荐列表中获得比较高的排名（兴趣度）

和用户相似度一样，物品相似度也有改进的空间，一般来说，不活跃的用户对于物品相似度的贡献应该大鱼活跃用户。
可以采用如下公式计算物品相似度
f(i,j)=（u ∈ N(i) & N(j) ）*(1/log1+N(u)) /sqrt(N(i) || N(j))此公式通过 (1/log1+N(u))惩罚了过于活跃的用户

物品相似度的归一化：可以消除同类物品之间相似度过大造成推荐列表倾向于某类物品。

隐语义模型（LFM）
它的核心思想是通过隐含特征联系用户兴趣和物品

基于图的模型
即计算交叉两点（两点分别为用户和物品）的相关性。用户和物品的相关性高，那么物品在这个用户的推荐列表靠前。算法和PageRank类似，即不停的迭代计算pr值，直到这个值收敛到预先设定好的阀值。pagerank算法的java实现版本可以参考 http://duyunfei.iteye.com/blog/1532798

发表回复

>>返回群组首页

推荐系统实践笔记2 利用用户行为数据

相关讨论

相关资源推荐

推荐系统实践 笔记2 利用用户行为数据

相关讨论

相关资源推荐

推荐系统实践笔记2 利用用户行为数据