乳腺癌病症的分析——挖掘中医证素与乳腺癌TNM分期之间的关系
成员
- 康丽琪:2120161006
- 马俊:2120161022
- 王阳:2120161060
- 张天夫:2120161079
1. 问题描述
乳腺癌是由乳房组织发展成的癌症。中医药物治疗乳腺癌具有广泛的适应症和独特的优势。从整体出发,调整机体气压、阴阳、肺腑功能的平衡,根据不同的临床病症进行辨证论治。确定“先症而治”的方向:即在后续症状未出现之前,需要截断恶化病情的后续症状。发现中医症状间的关联关系和诸多症状之间的规律性,可以根据规则分析病因、预测病情的发展以及为未来临床提供有效借鉴。
目前,中医的治疗一般采用中医辩证的原则,结合临床医师的经验和临床指南进行诊断,然而这种方法也存在一定的缺陷。面对临床不同症状的患者,初学者难以判断。面对中医的缺陷,随着数据挖掘技术的发展,我们可以用数据挖掘技术对数据进行分析,得到中医症素与乳腺癌TNM分期之间的关系,从而有助于中医对乳腺癌的治疗。
2. 目标
经过以下步骤:
(1) 数据预处理。包括对数据进行分析与整理、填补缺失数据、对数值数据进行离散化。 (2) 挖掘频繁模式、关联和相关性。利用Apriori算法和FP-tree算法进行关联信息挖掘。 (3) 过滤关联规则,根据决策树分析结果。
找到满足最小支持度和置信度的有用的关联规则,从而推断出中医症素与乳腺癌TNM分期之间的关系,弥补中医临床医师经验的缺陷。
3. 完成工作
3.1 数据预处理
通过对所给数据的分析,得出:肝气郁结证型系数、热毒蕴结证型系数、冲任失调证型系数、气血两虚证型系数、脾胃虚弱证型系数、肝肾阴虚证型系数均为数值类型的数据,而病程阶段、TNM 分期、转移部位、确诊后几年发现转移均为标称类型的数据。观察数据发现,每一个属性的数据当中均存在缺失值。因此我们首先对缺失数据进行填补。
对于数值型数据填补,我们采用属性的中心度量填充缺失值。对每个属性的数据进行分析,对于对称分布的数据,用均值来填充,而对于倾斜数据,则用中位数来填充。
根据分析发现,肝气郁结证型系数、冲任失调证型系数、气血两虚证型系数、脾胃虚弱证型系数、肝肾阴虚证型系数均用均值来填补空缺值。而热毒蕴结证型系数的空值则需要用中位数来替换。
由于Apriori 算法无法处理连续型数值变量,还需要对数据进行规约,也就是对每个属性的数据进行离散化,使用一个标签来对应一个区间。在这里采用无监督学习的方法对数据进行离散化,所使用的算法是K-means。将各属性进行聚类然后进行离散化处理,使得每一个数据有一个对应的标签。分类结果如图: 肝气郁结证型系数:
热毒蕴结证型系数:
冲任失调证型系数:
气血两虚证型系数:
脾胃虚弱证型系数:
肝肾阴虚证型系数:
对于标称属性的数据,其每个值可以看作是一个类标号,利用经过离散化后的数据来对空缺值进行预测。
例如,填 TNM 分期的空缺值,则每条记录的类标号就是其对应的 TNM 分期的属性值,找到空缺的记录,根据贝叶斯方法对其进行预测:
P(X | TNM 分期=H1)= P(肝气郁结证型系数=A2 | TNM 分期=H1)×P(热毒蕴结证型系数=B1 | TNM 分期=H1) ×P(冲任失调证型系数=C2 | TNM 分期=H1)×P(气血两虚证型系数=D3 | TNM 分期=H1)×P(脾胃虚弱证型系数=E3 | TNM 分期=H1)×P(脾胃虚弱证型系数=F3 | TNM 分期=H1) |
同理,计算出P(X | TNM 分期=H2)、P(X | TNM 分期=H3)和P(X | TNM 分期=H4),取概率最大值对应的TNM 分期。 |
最终,数据填补后的完整数据如图:
3.2 挖掘关联信息
我们首先使用Apriori算法对关联信息进行挖掘。
算法步骤如下:
1) 依据支持度找出所有频繁项集(频度) 扫描、计数、比较、产生频繁项集、连接、剪枝、产生候选项集。重复上述步骤直到不能发现更大的频繁项集。
2) 依据置信度产生关联规则(强度)
根据置信度的定义,关联规则的产生如下:
a) 对于每个频繁项集 L,产生 L的所有非空子集; b) 对于 L的每个非空子集 S,如果 P(L)/P(S)≧min_conf,则输出规则“L->S”。
挖掘结果如下:
4. 下阶段目标
- 使用FP-tree 算法挖掘关联信息。
- 基于决策树寻找有用关联规则。