邮件类型自动分类
题目确定时间:2016.5.16
成员
- 张霖 2120151063
- 杨冰 2120151052
数据集
- Enron Email Dataset
处理步骤
- 在数据集上对数据进行类型标注,如个人邮件、公务邮件、垃圾邮件、广告邮件等,建立Groundtruth。
- 对数据进行预处理。从数据中提取出元数据(发件、收件、抄送、主题)等。
- 对数据进行分词处理。选取每个数据的关键词集合,去除无意义的词。
- 利用关键词,基于某种算法建立每个数据的特征向量。
- 设计分类算法。
- 划分数据集为训练集和测试集。
- 依据设计的分类算法,使用训练集对分类模型进行训练。
- 使用测试集在分类模型上进行测试,并与Groundtruth进行比较,记录算法的准确度。
- 重复训练和测试过程,对算法性能进行评价。
目标
- 学习目前最新的文本分类及处理方法。
- 实现邮件的自动分类,方便电子邮件用户的使用。
- 辅助用户实现垃圾过滤和邮件整理。
分工
- 张霖 负责数据收集和算法设计与实现。
- 杨冰 负责数据预处理及实验和评估。