邮件类型自动分类

题目确定时间:2016.5.16

成员

  • 张霖 2120151063
  • 杨冰 2120151052

数据集

  • Enron Email Dataset

处理步骤

  1. 在数据集上对数据进行类型标注,如个人邮件、公务邮件、垃圾邮件、广告邮件等,建立Groundtruth。
  2. 对数据进行预处理。从数据中提取出元数据(发件、收件、抄送、主题)等。
  3. 对数据进行分词处理。选取每个数据的关键词集合,去除无意义的词。
  4. 利用关键词,基于某种算法建立每个数据的特征向量。
  5. 设计分类算法。
  6. 划分数据集为训练集和测试集。
  7. 依据设计的分类算法,使用训练集对分类模型进行训练。
  8. 使用测试集在分类模型上进行测试,并与Groundtruth进行比较,记录算法的准确度。
  9. 重复训练和测试过程,对算法性能进行评价。

目标

  1. 学习目前最新的文本分类及处理方法。
  2. 实现邮件的自动分类,方便电子邮件用户的使用。
  3. 辅助用户实现垃圾过滤和邮件整理。

分工

  • 张霖 负责数据收集和算法设计与实现。
  • 杨冰 负责数据预处理及实验和评估。