微博主题提取

微博主题提取

成员

魏林静 2120151045
王丹 2120151036
李克南 2120151004
郭一迪 2120150985

数据集

3万条新浪微博

处理步骤

1、用数据爬虫从新浪微博上面抓取微博文本内容。
2、数据预处理，将用户信息和微博内容分开。
3、使用NLPIR汉语分词系统对微博内容文本进行分词。
4、对分词后的微博内容文本进行去停用词处理。
5、将分词后的文本放入到改进的LDA模型中进行微博主题提取。

目标

得到数据中主题的分布。

项目分工

李克南、郭一迪：负责数据采集和预处理。
魏林静、王丹：负责对LDA模型的改进优化。