文本分类及主题挖掘
成员
- 杨亮
- 王丹(男)
- 朱鹏飞
项目简介:
文本有10个类别,环境、计算机、教育、交通、经济、军事、体育、医药、艺术、政治,通过对每种类别的每篇文章进行预处理,分词,去除停用词,统计tf-idf,生成词袋模型,在利用标签进行训练,训练方法为knn,然后对没有标签的文本进行预测分类。
主题抽取,对于每种类别,统计词袋模型中靠前的几个单词,则可以描述该主题的主要内容。
文本有10个类别,环境、计算机、教育、交通、经济、军事、体育、医药、艺术、政治,通过对每种类别的每篇文章进行预处理,分词,去除停用词,统计tf-idf,生成词袋模型,在利用标签进行训练,训练方法为knn,然后对没有标签的文本进行预测分类。
主题抽取,对于每种类别,统计词袋模型中靠前的几个单词,则可以描述该主题的主要内容。