微博水军识别
成员
- 卢兵兵 2120151018
- 赵 蒙 2120151069
- 战亦竹 2120141077
- 苏日海 2120131061
数据集
特定事件新浪微博用户数据2.5W,新浪微博数据1000万条。
处理步骤
整个文本数据研究分析主要分如下几个步骤:
- 数据爬取:用数据爬虫通过关键词和发布时间从网站上面抓取特定事件的微博数据。
- 水军标注:从爬取的微博账户中随机抽取10%的账号进行水军人工标注,另外从网络购买一部分水军账户,最终我们计划收集2000个水军账户和2000个正常账户,以及他们的微博信息进行实验。
- 特征提取:提取实验微博用户数据的行为特征、基于内容的特征和轮廓特征。
- 分类器比较:分别用Logistic Regression,SMO,AD Tree和Random Forest四种方法对提取的特征进行学习训练,使用十折交叉验证的方法验证算法的准确性,并对四种算法的结果进行对比分析。
- 水军识别方法比较:对使用我们特征训练的分类器与现有其它水军发现算法进行对比分析。
- 特征的分析和评价:分别对各类特征和特征组合进行实验,对比不同特征及组合的有效性。
- 新特征分析:分析我们提出的新特征对水军发现的提升作用。
目标
验证我们提出的特征融合对水军发现的有效性。
- 分析Logistic Regression,SMO,AD Tree和Random Forest四种分类方法的各项评价指标(Accuracy、Recall、F-measure、FP-rate、ROC-Area)。
- 分析上述分类器与其他水军发现算法在各项评价指标(Accuracy、Recall、FP-rate)上的差异。
- 分析微博用户的行为特征、基于内容的特征和轮廓特征的不同及有效性。
- 分析新特征对提高水军发现各项评价指标(Accuracy、FP-Rate、F-Measure)的作用。
项目分工
- 苏日海:负责数据获取和标注。
- 卢兵兵:负责整体算法设计、特征提取、分类器实现和对比分析。
- 战亦竹:水军识别方法比较分析。
- 赵 蒙:特征分析和评价、新特征分析。