本论文为您写推荐算法毕业论文范文和职称论文提供相关论文参考文献,可免费下载。
结合项目流行度的协同过滤推荐算法
摘 要:针对传统的协同过滤推荐算法中相似度计算不准确的问题,论文提出了一种结合项目流行度的协同过滤推荐算法,通过引入项目流行度权重因子来降低热门项目在相似度计算及最终推荐中的影响力.最后在MovieLens数据集上的实验结果表明,改进算法有利于提高评分预测的准确度.
关键词:协同过滤;项目流行度;相似度
一、前言
随着信息技术和互联网的高速发展,人们逐渐从信息匮乏的时代走入了信息过载的时代,而协同过滤(CollaborativeFiltering,CF) 作为目前最成功的推荐技术,是有效解决互联网时代信息过载的主要手段之一[1].它主要通过分析用户的历史行为数据,进行兴趣建模,从而主动地给用户推荐能够满足他们兴趣和需求的项目.传统的协同过滤推荐算法主要致力于推荐准确度的提高,而好的推荐系统不仅要帮助用户准确预测,还要善于帮助用户挖掘那些他们感兴趣却很难发现的项目,从而提高项目推荐的覆盖率.
二、传统的协同过滤推荐算法
传统的基于用户的协同过滤推荐算法包括两步:
(1)查找和目标用户兴趣相似的用户集合;
(2)根据相似用户集合,评分预测及项目推荐.传统协同过滤推荐算法中,最常用的相似度计算公式是皮尔森相关相似性[2],如式2-1 所示,其中Iuv 表示用户u,v 共同评分的集合,Iu,Iv 分别表示用户u,v 评分项目集合,-Ru 和-Rv 分别表示用户u,v 对已评分项目集合的平均评分,Ru,i 和Rv,i 分别表示用户u,v 对项目i 的评分.
评分预测通常以sim(u,v) 为权重加权平均最近邻居对目标用户未评价项目i 的评分,其中Ku 表示用户的最近邻居集.
三、改进算法
在电子商务网站中,项目流行度指对物品产生过行为的用户总数,它会潜在的影响用户间的相似度关系.流行度高的项目更容易被用户发现并反馈,相反流行度低的商品很难引起用户的注意.对于任意给定的项目i,若其流行度很高,两用户u,v 同时对其评分很有可能均是受项目本身流行趋势的影响,并不能真正反馈出用户间的相似相关度;相反,若项目i 的率和流行度很低,用户u,v 对该冷门项目采取过同样的行为更能说明他们兴趣的相似度,在体现用户的兴趣上更加可靠真实.结合上述分析,文中引入项目流行度惩罚权重因子:
其中weight_pop_i 是项目i 的流行度惩罚因子,s(i) 代表项目i 的流行度,改进后的用户间相似度表示如下:
上式通过weight _ pop _ i 惩罚了用户u,v 共同兴趣列表中热门物品对相似度的影响,通过对热门项目降权使得越是热门的项目其对用户间的相似度的贡献越小,有利于挖掘出隐藏在长尾中用户感兴趣的冷门项目.
四、实验设计与分析
实验数据:本文实验采用的数据集是GroupLens 项目组提供的MovieLens 数据集.其中包括:943 名用户对1682个项目的100000 条电影的评分数据[2].实验数据按80% 和20% 的比例划分为训练集和测试集.
评价标准:衡量协同过滤推荐系统性能优劣的方法有很多,最常用的推荐算法评测标准是平均绝对误差MAE(MeanAverage Error),表示预测评分值与用户实际评分值之间的差距,MAE 越小预测准确度越高[3].
为了进一步验证文中改进算法的有效性,将其与传统的基于用户的协同过滤推荐算法进行比较,对比结果如图1 所示.从图中可以看出,在不同的最近邻居范围内,改进的算法均取得较小的MAE 值.
五、总结
本文结合项目流行度对现有的相似度计算方法进行改进,并且通过实验证明文中改进算法的推荐精度要优于传统的协同过滤推算法,还有利于进一步提高推荐系统项目推荐的覆盖率.
参考文献
[1]Zhang, J, Lin, Y, Lin, M, & Liu, J. (2016). An effective collaborativefiltering algorithm based on user preference clustering. Applied Intelligence,45, 230–240.
[2] 林康, 杨云, 秦怡, 闵玉涓. 结合用户属性聚类的协同过滤推荐算法[J]. 计算机与现代化,2016(07):28-32.
[3] 马宏伟, 张光卫, 李鹏. 协同过滤推荐算法综述[J]. 小型微型计算机系统,2009,30(07)30(07):1282-1288.
(作者单位:北方民族大学)
推荐算法论文范文结:
关于推荐算法方面的的相关大学硕士和相关本科毕业论文以及相关推荐算法论文开题报告范文和职称论文写作参考文献资料下载。
1、论文网站推荐
2、优秀杂志推荐
3、杂志推荐
4、论文推荐
5、旅游杂志推荐
6、小学生期刊推荐