新浪微博互动预测
小组成员
- 刘廷曦 2120161016
- 顾爽 2120160990
问题描述
1. 问题背景分析
本组的选题来自于阿里云天池大数据竞赛。新浪微博作为中国最大的社交媒体平台,旨在帮助用户发布的公开内容提供快速传播互动的通道,提升内容和用户的影响力。新浪微博互动预测的目标是发现能够最快找到有价值微博的方法,然后应用于平台的内容分发控制策略,对于有价值的内容可以增加曝光量,提高内容的传播互动量。
2. 问题描述
对于一条原创博文而言,转发、评论、赞等互动行为能够体现出用户对于博文内容的兴趣程度,也是对博文进行分发控制的重要参考指标。因此本选题的任务就是根据抽样用户的原创博文在发表一天后的转发、评论、赞总数,建立博文的互动模型,并预测用户后续博文在发表一天后的互动情况。
数据集
1. 训练数据
字段 | 字段说明 | 提取说明 |
---|---|---|
uid | 用户标记 | 抽样&字段加密 |
mid | 博文标记 | 抽样&字段加密 |
time | 发博时间 | 精确到天 |
forward_count | 博文发表一周后的转发数 | |
comment_count | 博文发表一周后的评论数 | |
like_count | 博文发表一周后的赞数 | |
content | 博文内容 |
2. 预测数据
字段 | 字段说明 | 提取说明 |
---|---|---|
uid | 用户标记 | 抽样&字段加密 |
mid | 博文标记 | 抽样&字段加密 |
time | 发博时间 | 精确到天 |
content | 博文内容 |
评估指标
转发偏差 deviation_f
评论偏差 deviation_c
点赞偏差 deviation_l
结合上述三项偏差,计算第i篇博文的准确率 precision_i
计算整体的准确率 precision
小组分工
- 顾爽:算法实现、报告撰写
- 刘廷曦:算法优化、报告撰写