乳腺癌病症的分析——挖掘中医证素与乳腺癌TNM分期之间的关系

成员

康丽琪：2120161006
马俊：2120161022
王阳：2120161060
张天夫：2120161079

1. 问题描述

乳腺癌是由乳房组织发展成的癌症。中医药物治疗乳腺癌具有广泛的适应症和独特的优势。从整体出发，调整机体气压、阴阳、肺腑功能的平衡，根据不同的临床病症进行辨证论治。确定“先症而治”的方向：即在后续症状未出现之前，需要截断恶化病情的后续症状。发现中医症状间的关联关系和诸多症状之间的规律性，可以根据规则分析病因、预测病情的发展以及为未来临床提供有效借鉴。

目前，中医的治疗一般采用中医辩证的原则，结合临床医师的经验和临床指南进行诊断，然而这种方法也存在一定的缺陷。面对临床不同症状的患者，初学者难以判断。面对中医的缺陷，随着数据挖掘技术的发展，我们可以用数据挖掘技术对数据进行分析，得到中医症素与乳腺癌TNM分期之间的关系，从而有助于中医对乳腺癌的治疗。

2. 目标

经过以下步骤：

（1）数据预处理。包括对数据进行分析与整理、填补缺失数据、对数值数据进行离散化。（2）挖掘频繁模式、关联和相关性。利用Apriori算法和FP-tree算法进行关联信息挖掘。（3）过滤关联规则，根据决策树分析结果。

找到满足最小支持度和置信度的有用的关联规则，从而推断出中医症素与乳腺癌TNM分期之间的关系，弥补中医临床医师经验的缺陷。

3. 完成工作

3.1 数据预处理

通过对所给数据的分析，得出：肝气郁结证型系数、热毒蕴结证型系数、冲任失调证型系数、气血两虚证型系数、脾胃虚弱证型系数、肝肾阴虚证型系数均为数值类型的数据，而病程阶段、TNM 分期、转移部位、确诊后几年发现转移均为标称类型的数据。观察数据发现，每一个属性的数据当中均存在缺失值。因此我们首先对缺失数据进行填补。

对于数值型数据填补，我们采用属性的中心度量填充缺失值。对每个属性的数据进行分析，对于对称分布的数据，用均值来填充，而对于倾斜数据，则用中位数来填充。

根据分析发现，肝气郁结证型系数、冲任失调证型系数、气血两虚证型系数、脾胃虚弱证型系数、肝肾阴虚证型系数均用均值来填补空缺值。而热毒蕴结证型系数的空值则需要用中位数来替换。

由于Apriori 算法无法处理连续型数值变量，还需要对数据进行规约，也就是对每个属性的数据进行离散化，使用一个标签来对应一个区间。在这里采用无监督学习的方法对数据进行离散化，所使用的算法是K-means。将各属性进行聚类然后进行离散化处理，使得每一个数据有一个对应的标签。分类结果如图：肝气郁结证型系数：