亚马逊书籍推荐
成员
- 胡健
- 季鹏
- 张快
一、数据
我们下载了亚马逊公开的2013年3月前的电影类别下用户评分数据集,该数据集总共包含6708063条评分数据,每一条数据的格式如下:
AZZZRU9BPN8UP,B00004RVIE,4.0
其中第一项为userid,第二项为movieid,第三项为评分
二、预处理
1、去掉了评分方差小的用户和电影。
2、对每一条评分记录,我们计算他的bias来表示用户的真实评分:
bias=用户的实际评分-整个数据集的平均分-(用户的实际评分-该用户的平均分)-(用户的实际评分-该电影的平均分)
这样可以消除一些用户评分普遍过高(过低)或者一些电影评分普遍过高(过低)带来的影响,达到个性化的效果
三、算法
算法使用协同过滤的思想,通过分解用户-电影评分矩阵来预测矩阵中的缺失值,具体实现是用低秩分解的方式,通过梯度下降得到最优的用户矩阵和电影矩阵。