基于用户行为和番剧特征的b站番剧推荐系统
成员
姓名 | 学号 |
---|---|
万凯斌 | 3120181030 |
曹昊天 | 3120180980 |
李嘉盛 | 3120181083 |
问题描述
1、问题背景分析
在b站、爱奇艺等视频网站中,用户观看视频的数量往往关乎着网站的收益。为了增大用户观看量,视频网站会使用推荐系统向用户推荐其可能感兴趣的视频,引诱用户观看。因此,一个高质量的推荐系统不仅能为网站带来更多的收益,也能为用户带来良好的体验。在本项目中,我们设计并实现了一个b站番剧推荐系统,为了保证推荐的准确性,我们综合用户行为和番剧特征两个方面来进行推荐。其中,用户行为包括用户的关注、点赞、收藏记录等,番剧特征包括番剧的标签、评分等。最终,我们将用b站的真实数据集来评估系统的推荐效果。
2、问题描述
2.1 数据准备
b站没有公开其用户和番剧相关的数据集,但其开放了查询接口,因此我们将独立编写爬虫程序来获取数据集。包括:
- 用户的收藏记录、排名、等级、是否认证、是否VIP
- 番剧的点赞数量、充电、承包、评分、追番用户数量、播放量
- 番剧的声优、导演、画师阵容
2.2 模型建立
- 使用FP-growth算法挖掘用户观看记录的频繁项集
- 不同的用户具有不同的权重(例如认证用户、VIP用户、排名高的用户权重更高)
- 用户对番剧的态度也有不同的权重(例如用户关注、收藏、点赞了某个番剧,那么认为此用户对该番剧的喜欢程度更高)
- 部分用户是为了某部番的声优、导演、画师而观看番剧,这也将作为部分考虑因素
2.3 预期的结果
根据用户以往的观看历史,成功预测出其之后会观看的番剧。
项目评估
-
全置信度:
-
最大置信度:
-
Kulc:
-
余弦:
项目分工
- 李嘉盛:系统设计,算法实现,文档编写
- 曹昊天:关联规则挖掘,数据分析,数据可视化
- 万凯斌:数据爬取,数据预处理,模型评估