阶段报告:
项目简介:
-
文本有10个类别,环境、计算机、教育、交通、经济、军事、体育、医药、艺术、政治,通过对每种类别的每篇文章进行预处理,分词,去除停用词,统计tf-idf,生成词袋模型,在利用标签进行训练,训练方法为knn,然后对没有标签的文本进行预测分类。
-
主题抽取,对于每种类别,统计词袋模型中靠前的几个单词,则可以描述该主题的主要内容。
阶段工作:
文本分类为10个类别,每个类别中有200篇文章,每篇文章大概3000个字,属于长文本分类,对于每个类别,提取其中的主题内容。
一、预处理阶段
首先需要对文本进行预处理,具体包括:
1)去掉不相关的header,footer以及其他注释信息;
2)去除文本分行标志的”\r\n”,合并为一个段落;
3)将处理好的文本放到新目录下,目录结构和之前的结构相同。
二、分词
将上一步进行预处理的文本进行分词,分词后放到新目录下,目录结构依然保持和之前的目录结构一致。
三、将预处理的文本进行打包
在这一阶段,我们主要是实现一个训练用预料数据结构,为做计算tf-idf向量空间模型做准备。
1、首先定于训练集的数据结构:
定义训练集对象:data_set
使用python的bunch类提供一中(key,value)的对象形式
Target_name:所有分类集名称列表
Label:每个语篇定义分类标签列表
Filenames:分词后语篇路径
Contents:分词后语篇内容
2、从分词语料库中将所需要的信息读入训练集的数据结构中
3、将训练集持久化为一个数据对象文件
4、读出数据对象文件,验证持久化的正确性
注:这一阶段,由于实验还未完全做完,就不做实验的展示了,实验的最终结果会在最终报告的实验部分展示。