基于用户行为和番剧特征的b站番剧推荐系统

成员

姓名 学号
万凯斌 3120181030
曹昊天 3120180980
李嘉盛 3120181083

问题描述

1、问题背景分析

在b站、爱奇艺等视频网站中,用户观看视频的数量往往关乎着网站的收益。为了增大用户观看量,视频网站会使用推荐系统向用户推荐其可能感兴趣的视频,引诱用户观看。因此,一个高质量的推荐系统不仅能为网站带来更多的收益,也能为用户带来良好的体验。在本项目中,我们设计并实现了一个b站番剧推荐系统,为了保证推荐的准确性,我们综合用户行为和番剧特征两个方面来进行推荐。其中,用户行为包括用户的关注、点赞、收藏记录等,番剧特征包括番剧的标签、评分等。最终,我们将用b站的真实数据集来评估系统的推荐效果。

2、问题描述

2.1 数据准备

b站没有公开其用户和番剧相关的数据集,但其开放了查询接口,因此我们将独立编写爬虫程序来获取数据集。包括:

  • 用户的收藏记录、排名、等级、是否认证、是否VIP
  • 番剧的点赞数量、充电、承包、评分、追番用户数量、播放量
  • 番剧的声优、导演、画师阵容

2.2 模型建立

  • 使用FP-growth算法挖掘用户观看记录的频繁项集
  • 不同的用户具有不同的权重(例如认证用户、VIP用户、排名高的用户权重更高)
  • 用户对番剧的态度也有不同的权重(例如用户关注、收藏、点赞了某个番剧,那么认为此用户对该番剧的喜欢程度更高)
  • 部分用户是为了某部番的声优、导演、画师而观看番剧,这也将作为部分考虑因素

2.3 预期的结果

根据用户以往的观看历史,成功预测出其之后会观看的番剧。

项目评估

  • 全置信度:

    全置信度

  • 最大置信度:

    最大置信度

  • Kulc:

    Kulc

  • 余弦:

    余弦

项目分工

  • 李嘉盛:系统设计,算法实现,文档编写
  • 曹昊天:关联规则挖掘,数据分析,数据可视化
  • 万凯斌:数据爬取,数据预处理,模型评估