文本分类及主题挖掘

成员

  • 杨亮
  • 王丹(男)
  • 朱鹏飞

项目简介:

文本有10个类别,环境、计算机、教育、交通、经济、军事、体育、医药、艺术、政治,通过对每种类别的每篇文章进行预处理,分词,去除停用词,统计tf-idf,生成词袋模型,在利用标签进行训练,训练方法为knn,然后对没有标签的文本进行预测分类。

主题抽取,对于每种类别,统计词袋模型中靠前的几个单词,则可以描述该主题的主要内容。