注意: 上方的内容不要删除

项目题目

基于协同过滤的电影推荐系统

成员

孟令康(3120181018), 于汶卉(3120181058), 罗丹(3120181013)

问题描述

1、问题背景分析

在视频网站发展伊始,视频推荐就应运而生。视频推荐根据当前热门视频及用户的个性化数据,为用户提供个性化的视频推荐,从而增加用户黏度,提高网站流量,是各大视频网站极为重视的功能之一。 2006年的Netflix大赛是视频推荐领域的标志性事件,该比赛悬赏100万美元,希望研究人员能够将Netflix的推荐算法的预测准确度提高到10%,比赛举办三年后,由AT&T的研究人员将大奖捧走。这场比赛吸引了众多队伍参加,并将协同过滤(collaborative filtering),关联规则(association rules),奇异值分解(SVD)等众多推荐方法应用于视频推荐领域,获得非常好的推荐效果。这一事件反映出视频网站对推荐系统的重视程度,同时YouTube等公司也在视频推荐领域进行专门研究,可见推荐系统在视频网站中的重要地位。

2、问题描述

2.1 数据准备 使用movielens数据集,它包含多个用户对多部电影的评级数据,也包括电影元数据信息和用户属性信息。这个数据集经常用来做推荐系统,机器学习算法的测试数据集。尤其在推荐系统领域,很多著名论文都是基于这个数据集的。 2.2 模型建立 我们比较了不同的模型去进行电影推荐,包括基于用户的协同过滤算法,基于物品的协同过滤算法,基于流行度的推荐算法,LFM算法等。 2.3 预期的结果 通过不同模型效果的比较,可以得出哪个模型效果更好,并得到优秀的推荐结果。

项目评估

我们采用随机打乱数据的方法完成模型的评测,用随机函数打乱原数据顺序,然后可以自己设置百分比去划分训练集和测试集,在训练集上进行建模,并在测试集上进行推荐评估,统计出相应的评测指标。评价推荐系统的性能需要从用户、物品提供者、提供推荐系统网站等方面来进行考虑。我们采用离线的数据集构建模型,用户行为是隐反馈,即如果评分大于等于4,则为喜欢,否则为不喜欢。最后通过多种推荐算法,得出RMSE和召回率的值。

项目分工

孟令康 代码实现 于汶卉 数据收集及处理 罗丹 结果对比及撰写报告