新浪微博互动预测
成员
- 王学博
- 陈晓珍
- 余睿哲
- 谌丹璐
问题描述
1、问题背景分析
本组的选题来自于阿里云天池大数据竞赛。新浪微博作为中国最大的社交媒体平台,旨在帮助用户发布的公开内容提供快速传播互动的通道,提升内容和用户的影响力。新浪微博互动预测的目标是发现能够最快找到有价值微博的方法,然后应用于平台的内容分发控制策略,对于有价值的内容可以增加曝光量,提高内容的传播互动量。
2、问题描述
对于一条原创博文而言,转发、评论、赞等互动行为能够体现出用户对于博文内容的兴趣程度,也是对博文进行分发控制的重要参考指标。因此本选题的任务就是根据抽样用户的原创博文在发表一天后的转发、评论、赞总数,建立博文的互动模型,并预测用户后续博文在发表一天后的互动情况。
2.1. 数据准备
下载阿里云天池大数据竞赛所提供的微博用户数据集,包含4.6W用户数据,用户博文的全部信息都映射为一行数据。其中对用户做了一定抽样,获取了抽样用户半年的原创博文,对用户标记和博文标记做了加密 发博时间精确到天级别。
2.2. 模型建立
利用现有数据集,结合用户微博的转发,评论,点赞等行为,提取用户特征,训练回归模型
项目评估
- 转发偏差 deviation_f
- 评论偏差 deviation_c
- 点赞偏差 deviation_l 结合上述三项偏差,计算第i篇博文的准确率 precision_i 计算整体的准确率 precision
项目分工
- 王学博 数据预处理、算法实现、文档编写
- 陈晓珍 数据统计分析、模型选择、文档编写
- 余睿哲 结果可视化、算法选择、文档编写
- 谌丹璐 数据分析、算法实现、文档编写