基于用户行为和番剧特征的b站番剧推荐

成员及分工

成员	分工
李嘉盛	系统设计，算法实现，文档编写
曹昊天	关联规则挖掘，数据分析，数据可视化
万凯斌	数据爬取，数据预处理，模型评估

1. 题目介绍

在b站、爱奇艺等视频网站中，用户观看视频的数量往往关乎着网站的收益。为了增大用户观看量，视频网站会使用推荐系统向用户推荐其可能感兴趣的视频，引诱用户观看。因此，一个高质量的推荐系统不仅能为网站带来更多的收益，也能为用户带来良好的体验。

source_code

在2019年4月的一次Bilibili源码泄漏事件中，B站的视频推荐算法被人解读了出来，其中对于视频的各类特征的权重占比仅针对视频的播放属性而言，例如播放量、点攒数、分享数等，如果直接套用到番剧推荐上，缺少对番剧本身特有的特征关联，如番剧的声优阵容，画师等。

在本项目中，我们设计并实现了一个b站番剧推荐系统，为了保证推荐的准确性，我们综合用户行为和番剧特征两个方面来进行推荐。其中，用户行为包括用户的关注、点赞、收藏记录等，番剧特征包括番剧的标签、评分、声优、画师阵容等其它属性。最终，我们将用b站的真实数据集来评估系统的推荐效果。

2. 模型描述

关联规则挖掘

关联规则挖掘是一种基于规则的机器学习算法，该算法可以在大数据库中发现感兴趣的关系。“尿布与啤酒”是一个典型的关联规则挖掘的例子，沃尔玛为了能够准确了解顾客在其门店的购买习惯，对其顾客的购物行为进行购物篮分析，想知道顾客经常一起购买的商品有哪些。沃尔玛利用所有用户的历史购物信息来进行挖掘分析，一个意外的发现是：”跟尿布一起购买最多的商品竟是啤酒！

关联规则挖掘算法不仅被应用于购物篮分析，还被广泛的应用于网页浏览偏好挖掘，入侵检测，连续生产和生物信息学领域，以及本项目所做的推荐系统。

我们所选用的关联规则挖掘算法时FP-Growth算法，算法的实现主要分为三个步骤：建立项头表、建立TP-Tree、基于FP-Tree进行关联规则挖掘。

建立项头表

FP树的建立需要首先依赖项头表的建立。我们第一次扫描数据，得到所有频繁一项集的的计数。然后删除支持度低于阈值的项，将1项频繁集放入项头表，并按照支持度降序排列。接着第二次也是最后一次扫描数据，将读到的原始数据剔除非频繁1项集，并按照支持度降序排列。

如上图所示为一个建立好的项头表，其中A、C、E、G、B、D、F为挖掘出的频繁项集。

建立FP-Tree

有了项头表和排序后的数据集，我们就可以开始FP-Tree的建立了。开始时FP-Tree没有数据，建立FP-Tree时我们一条条的读入排序后的数据集，插入FP-Tree，插入时按照排序后的顺序，插入FP-Tree中，排序靠前的节点是祖先节点，而靠后的是子孙节点。如果有共用的祖先，则对应的公用祖先节点计数加1。插入后，如果有新节点出现，则项头表对应的节点会通过节点链表链接上新节点。直到所有的数据都插入到FP-Tree后，FP-Tree的建立完成。

如上图所示，是一个建好后的FP-Tree

基于FP-Tree进行关联规则挖掘

得到了FP树和项头表以及节点链表，我们首先要从项头表的底部项依次向上挖掘。对于项头表对应于FP树的每一项，我们要找到它的条件模式基。所谓条件模式基是以我们要挖掘的节点作为叶子节点所对应的FP子树。得到这个FP子树，我们将子树中每个节点的的计数设置为叶子节点的计数，并删除计数低于支持度的节点。从这个条件模式基，就可以递归挖掘得到频繁项集了。

上图右侧展示了E的条件模式基，递归挖掘到E的最大频繁项集为频繁3项集。

3. 数据处理

缺失值处理

缺失值主要来源于爬虫爬取数据过程中的意外操作，如用户的隐私设置了非公开，番剧被下架，用户本身处于小黑屋状态，都有一定可能导致数据的缺失。此外，由于B站本身的反爬机制，所以在高速爬取时会被IP限制，所以使用IP池的方法进行绕过时，代理IP的不稳定性也可能导致一定量的数据缺失，但是比例较小，所以可以忽略不计。

对于这类缺失值的处理方法一般采用直接丢弃的方法，因为缺失的数据占比较小，且大多数缺失数据本身不具有特征倾向，所以直接丢弃即可。但是对于被下架番剧的信息缺失，可以考虑从百度快照等缓存网站获取最近一次的缓存信息进行补充。而由于代理IP出现的信息缺失情况，在爬虫的中间件部分设置了缺失重爬的逻辑，所以只需要在最后的爬取结果中进行一次去重操作即可。

非法数据处理

B站本身的数据其实也存在一定的错误率，例如在声优及职员列表中，经常出现中英符号混用，非严格的职员-角色格式，以及已注销用户仍然可以得到有效数据，这部分数据其实不应该出现在最终的用户数据中。由于这类情况出现较少，且缺少可以过滤的规则，所以只能手动对这部分数据处理。

此外，由于对于用户数据的爬取是bfs的方式进行的，所以得到“低等级”用户有非常多，有很大一部分这样的用户是广告号，所以为了尽量减少这类账号对数据整体的影响，设置了一定的规则进行过滤，如2级以下的用户数据将不被归纳到最终的数据集中，此外，节操值低于阈值（50）的用户也将被规则过滤出去。

4. 结果分析

首先我们利用FP-Growth算法挖掘出了所有的关联规则，并根据置信度对所有关联规则进行排序，以此来作为推荐的标准。

上图显示了置信度最高的20条关联规则。在以置信度作为唯一的评价标准对用户进行推荐时，推荐的准确率约为71.5%。

之后，我们将用户及番剧的某些属性也纳入了考虑范围内，包括番剧的得分、观看量、追番人数、画师声优整容等。规则的置信度和以上属性各占一半的权重，并根据改权重对每一条关联规则进行重新打分。

上图为对关联规则重新打分后，分数最高的20条关联规则。可以看出与完全依靠置信度相比，结果有了很大不同。我们还尝试不断迭代以调整权重，使得推荐准确率能够达到最高。经过调整，推荐的准确率有了小幅度的上升。

2019年4月22日，bilibili发生了代码泄露事件。我们阅读了bilibili部分推荐规则的算法，发现其自身的推荐系统分为两类，一类是针对视频的推荐系统，另一类是针对文章的推荐系统。在对视频的推荐中，bilibili考虑了视频的硬币、收藏、弹幕、评论、播放量、点赞数、分享数、更新时间等属性；对文章的推荐中，bilibili考虑了专栏文章硬币、收藏、评论、阅读量、点赞数、分享数、更新时间等属性。bilibili本身的推荐系统所采用的属性和设置的权重具有一定的参考价值，然而，番剧的某些特性不同于一般的视频。我们考虑到，很多用户观看番剧的原因是喜欢该番剧的某些幕后工作者，比如画师、声优、导演等，因此，在我们这个番剧推荐系统中，我们对番剧工作人员也设置了一定的权重，以提升整体的推荐效果。

5. 小结

通过本次大作业，小组各成员在对数据挖掘的算法理解上又深了一步，相比于B站源码中所透露出的推荐算法权重来说，本课题中所提出的推荐算法涉及的特征更为丰富，在原有基础上结合动漫爱好者的具体喜好，总结并使用了番剧这类视频所具有的额外特征，即声优与画师阵容等，通过关联规则的挖掘，结合不同特征的权重调整，从而得出一个更为综合的番剧推荐系统。