微博主题抽取-中期报告

微博主题抽取-中期报告

成员

魏林静
王丹
李克南
郭一迪

当前成果

用数据爬虫技术从新浪微博上面抓取微博文本内容。

对抓取的数据进行预处理，主要包括数据清理、分词、去停用词等

利用LDA模型对微博主题进行抽取。

目标

对当前的结果进行改进，从两方面

短文本
噪声

数据预处理

数据清理后

只提取出用户名和微博内容。

数据预处理后

包括分词、去停用词。

LDA部分实验结果展示

还是有一部分噪音，和短文本的影响。