基于Aprori算法的医疗诊断规则的挖掘和分析

题目确定时间:2016.5.18

成员

  • 严西敏 2120151051
  • 欧阳童 2120151025

数据集

百度医疗以及其他一些医疗网站所用的用户问答网页

处理步骤

  1. 用数据爬虫从网站上面抓取网页。
  2. 文本预处理,对文本数据进行去重和过滤掉那些没有实际意义的词。
  3. 分词,使用专用的医疗学词库,对文本进行分词
  4. 抽取 症状 和 疾病 信息
  5. 使用Aprori算法,计算症状和疾病之间的相关性
  6. 根据第5步的规则,输出可信度高的规则

    目标

  • 分词结果符合预期结果
  • 挖掘出可信的症状-疾病规则,可以用到医疗推理上

项目分工:

  • 欧阳童: 负责数据抓取和预处理
  • 严西敏: 负责利用抓取的数据使用Aprori算法进行高频规则分析