微博主题提取

成员

  • 魏林静 2120151045
  • 王丹 2120151036
  • 李克南 2120151004
  • 郭一迪 2120150985

数据集

3万条新浪微博

处理步骤

  • 1、用数据爬虫从新浪微博上面抓取微博文本内容。
  • 2、数据预处理,将用户信息和微博内容分开。
  • 3、使用NLPIR汉语分词系统对微博内容文本进行分词。
  • 4、对分词后的微博内容文本进行去停用词处理。
  • 5、将分词后的文本放入到改进的LDA模型中进行微博主题提取。

目标

  • 得到数据中主题的分布。

项目分工

  • 李克南、郭一迪:负责数据采集和预处理。
  • 魏林静、王丹:负责对LDA模型的改进优化。