微博主题提取
成员
- 魏林静 2120151045
- 王丹 2120151036
- 李克南 2120151004
- 郭一迪 2120150985
数据集
3万条新浪微博
处理步骤
- 1、用数据爬虫从新浪微博上面抓取微博文本内容。
- 2、数据预处理,将用户信息和微博内容分开。
- 3、使用NLPIR汉语分词系统对微博内容文本进行分词。
- 4、对分词后的微博内容文本进行去停用词处理。
- 5、将分词后的文本放入到改进的LDA模型中进行微博主题提取。
目标
- 得到数据中主题的分布。
项目分工
- 李克南、郭一迪:负责数据采集和预处理。
- 魏林静、王丹:负责对LDA模型的改进优化。