基于Aprori算法的医疗诊断规则的挖掘和分析
题目确定时间:2016.5.18
成员
- 严西敏 2120151051
- 欧阳童 2120151025
数据集
百度医疗以及其他一些医疗网站所用的用户问答网页
处理步骤
- 用数据爬虫从网站上面抓取网页。
- 文本预处理,对文本数据进行去重和过滤掉那些没有实际意义的词。
- 分词,使用专用的医疗学词库,对文本进行分词
- 抽取 症状 和 疾病 信息
- 使用Aprori算法,计算症状和疾病之间的相关性
- 根据第5步的规则,输出可信度高的规则
目标
- 分词结果符合预期结果
- 挖掘出可信的症状-疾病规则,可以用到医疗推理上
项目分工:
- 欧阳童: 负责数据抓取和预处理
- 严西敏: 负责利用抓取的数据使用Aprori算法进行高频规则分析