基于神经网络的个性化电影推荐

一、小组成员及分工

1 巩卫参：3220180798 数据预处理、文档撰写
2 戴云鹏：5720182061 构建模型、训练模型
3 赵仁豪：3220180773 模型优化、文档撰写
4 肖恩：3220180881 数据可视化、文档撰写

二、问题描述

由于个人喜好不同，喜欢的电影风格也就不尽相同，如果能够根据用户喜欢的电影类型，进行个性化的内容推荐，可以给用户带来很好的体验。为了解决这个问题，推荐系统应运而生，其中协同过滤是推荐系统中使用广泛的技术，该方法根据用户的历史记录、个人喜好等信息，计算与其他用户的相似度，利用相似用户的评价来预测目标用户对特定项目的喜欢程度。优点是会给用户推荐未浏览的项目，缺点是对于新用户来说，由于没有任何与商品的交互记录和个人喜好等信息，导致模型无法找到相似的用户或商品。本项目使用文本卷积神经网络，并使用MovieLens数据集完成电影推荐的任务。

三、数据集描述

使用MovieLens 1M 数据集，数据集分为三个文件：用户数据users.dat，电影数据movies.da和评分数据ratings.dat。
用户数据有用户ID、性别、年龄、职业ID和邮编等，字段如下图所示：

电影数据有电影ID、电影名和电影风格等，如下图所示：

评分数据有用户ID、电影ID、评分和时间戳等，如下图所示：

四、评价指标

在对模型的性能进行评价方面，这里采用了均方误差（Mean squared error，MSE）进行评估：
其中，n为样本数量，为电影的真实评分，为电影的预测评分。

五、模型描述

整个模型大致如下图所示：

在预处理数据时将数据集中的字段类型转成数字，用这个数字当做嵌入矩阵的索引，在网络的第一层使用嵌入层，电影名的处理用文本卷积网络，从嵌入层索引出特征以后，将各特征传入全连接层，将输出再次传入全连接层，最终分别得到用户特征和电影特征两个特征向量。将两个特征做向量乘法，将结果与真实评分做回归，采用MSE优化损失。
其中文本卷积网络的内容参考了论文《Convolutional Neural Networks for Sentence Classification》中的CNN模型，如图所示：

网络的第一层是词嵌入层，由每一个单词的嵌入向量组成的嵌入矩阵。下一层使用多个不同尺寸（窗口大小）的卷积核在嵌入矩阵上做卷积，窗口大小指的是每次卷积覆盖几个单词。这里跟对图像卷积不太一样，图像的卷积通常用2x2、3x3、5x5之类的尺寸，而文本卷积要覆盖整个单词的嵌入向量，所以尺寸是（单词数，向量维度），比如每次滑动3个，4个或者5个单词。第三层网络是max pooling得到一个长向量，最后使用dropout做正则化，最终得到了电影Title的特征。

六、实验结果与分析

Training loss

随着迭代次数的增加，Training loss 减小后开始收敛
Test loss

随着迭代次数的增加，Test loss 减小后开始收敛

本文使用文本卷积神经网络，并利用MovieLens数据集完成电影推荐的任务。可以通过指定用户和电影进行评分，并且为用户推荐同类型的电影，用户喜欢的电影，看过这个电影的人还喜欢的其他电影。从实验结果看，本模型可以顺利完成为用户推荐电影的任务，但是推荐的效率还可以进行进一步的提高，未来的工作可以考虑进一步对模型进行优化。