数据挖掘@北京理工大学

注意: 上方的内容不要删除

项目题目

基于协同过滤的电影推荐系统

成员

孟令康(3120181018), 于汶卉(3120181058), 罗丹(3120181013)

问题描述

1、问题背景分析

在视频网站发展伊始,视频推荐就应运而生。视频推荐根据当前热门视频及用户的个性化数据，为用户提供个性化的视频推荐，从而增加用户黏度，提高网站流量，是各大视频网站极为重视的功能之一。 2006年的Netflix大赛是视频推荐领域的标志性事件，该比赛悬赏100万美元，希望研究人员能够将Netflix的推荐算法的预测准确度提高到10%，比赛举办三年后，由AT&T的研究人员将大奖捧走。这场比赛吸引了众多队伍参加，并将协同过滤（collaborative filtering），关联规则（association rules），奇异值分解（SVD）等众多推荐方法应用于视频推荐领域，获得非常好的推荐效果。这一事件反映出视频网站对推荐系统的重视程度，同时YouTube等公司也在视频推荐领域进行专门研究，可见推荐系统在视频网站中的重要地位。

2、问题描述

2.1 数据准备使用movielens数据集，它包含多个用户对多部电影的评级数据，也包括电影元数据信息和用户属性信息。这个数据集经常用来做推荐系统，机器学习算法的测试数据集。尤其在推荐系统领域，很多著名论文都是基于这个数据集的。 2.2 模型建立我们比较了不同的模型去进行电影推荐，包括基于用户的协同过滤算法，基于物品的协同过滤算法，基于流行度的推荐算法，LFM算法等。 2.3 预期的结果通过不同模型效果的比较，可以得出哪个模型效果更好，并得到优秀的推荐结果。

项目评估

我们采用随机打乱数据的方法完成模型的评测，用随机函数打乱原数据顺序，然后可以自己设置百分比去划分训练集和测试集，在训练集上进行建模，并在测试集上进行推荐评估，统计出相应的评测指标。评价推荐系统的性能需要从用户、物品提供者、提供推荐系统网站等方面来进行考虑。我们采用离线的数据集构建模型，用户行为是隐反馈，即如果评分大于等于4，则为喜欢，否则为不喜欢。最后通过多种推荐算法，得出RMSE和召回率的值。

项目分工

孟令康代码实现于汶卉数据收集及处理罗丹结果对比及撰写报告