微博 主题 抽取-中期报告

成员

  • 魏林静
  • 王丹
  • 李克南
  • 郭一迪

当前成果

用数据爬虫技术从新浪微博上面抓取微博文本内容。

对抓取的数据进行预处理,主要包括数据清理、分词、去停用词等

利用LDA模型对微博主题进行抽取。

目标

对当前的结果进行改进,从两方面

  • 短文本
  • 噪声

数据预处理

数据清理后

只提取出用户名和微博内容。

数据预处理后

包括分词、去停用词。

LDA部分实验结果展示

还是有一部分噪音,和短文本的影响。