糖尿病肾病患者生化检验结果分析
成员
- 董国昭
- 董小楠
- 雷丙震
- 李若松
- 王永昊
问题描述
1.问题背景分析
糖尿病肾病是糖尿病最主要的慢性并发症之一,由糖尿病微血管病变引起。糖尿病肾病发展到晚期会出现严重的肾功能衰竭,是糖尿病患者的主要死因之一,而由于肾病的复杂性,目前,肾穿刺活检和核医学手段是临床准确诊断肾病的主要方法。但是肾穿刺活检是一种创伤性的检查,可能出现出血、血肿、高血压、肾脏感染等多种并发症,甚至导致死亡。本项目试图从糖尿病患者的生化指标检测结果进行分析,从而对糖尿病肾病的诊断提供新的思路与方法。
2.问题描述:
(1) 选择数据集。本项目数据集来自2009年-2011年三年住院手指的全部糖尿病患者中生化检测指标齐全患者的生化检验结果。 (2) 文本预处理。包括对数据进行初步筛选,根据生化指标是否异常对数据进行二值化处理以及指标分析。 (3) 基于生化检测的糖尿病肾病发病预测模型:使用Logistic回归评分模型构建其发病预测模型。 (4) 糖尿病患者生化指标与糖尿病肾病的关联性分析:主要包括两部分,生化常规检查中的一些指标与糖尿病肾病之间的关联关系 以及生化指标之间的关联关系。
已完成工作:
1. 生化指标分析和筛选
从临床数据中心(301医院)提取2009、2010、2011年301医院住院收治的糖尿病患者的生化检验结果,从中随机抽取1039例糖尿病肾病患者和1039例临床诊断未患有肾病的糖尿病患者,作为分析使用的对照样本。
本次数据涉及患者检测的生化检验指标共12项,包括丙氨酸氨基转移酶、天冬氨酸氨基转移酶、尿素、γ—谷氨酰基转移酶、肌酐、葡萄糖、血清尿酸、肌酸激酶、钙、钠、钾、氯化物。根据相关的判定指标异常的标准进行数据二值化处理,其中正常=0,不正常=1。 被随机抽取的糖尿病肾病患者和糖尿病非肾病患者各1039例的条件Logistic回归分析的结果如表1所示。描述性分析的结果如表2所示。
综合描述性分析与条件Logistic回归分析得出的结果进行研究。从 OR 值和 95%CI 置信区间的角度考虑,6个生化指标中葡萄糖 OR 值小于1,尿素、肌酐、钙、钠、氯化物五个均大于1,说明尿素、肌酐钙、钠、氯化物五个生化指标不正常都能指示糖尿病肾病发生的概率增加;血糖不正常指示了糖尿病肾病的发生的概率降低。OR值越大,则该生化指标正常或不正常对糖尿病肾病发生的正相关或负相关性越强,即该因素的影响作用越大。根据危险因素的 OR 值给出5个正相关的生化指标的影响作用从强到弱依次为:肌酐、尿素、钠、氯化物、钙。
为了验证在初筛中得出的结果,从2009、2010、2011年301医院住院收治的糖尿病患者中重新抽取1039例糖尿病肾病患者和1039例临床诊断未患有肾病的糖尿病患者,作为分析使用的对照样本。将肌酐、尿素、氯化物、钠、钙、葡萄糖6项糖尿病肾病发病有统计学意义的指标单独抽出,作为自变量,以P<0.05作为统计学显著性界限,拟合生成条件Logistic 回归模型,结果如表3所示。
分析结果与从初次筛选中得到的结果基本相符。尿素、肌酐钙、钠、氯化物五个生化指标为糖尿病肾病发生的正相关指标;血糖为糖尿病肾病的发生的负相关指标。根据危险因素的 OR 值给出5个正相关的生化指标的影响作用从强到弱依次为:肌酐、尿素、钠、钙、氯化物,与初次筛选结果相同,验证了提出的结论。
2. 发病预测模型的构建
预测模型的数据来自临床数据中心(301医院),内容为301医院2009-2011三年住院收治的全部糖尿病患者中生化检测结果中肌酐、尿素、钠、钙、氯化物、葡萄糖6种指标齐全患者的生化检验结果。共58122人,其中患糖尿病肾病总计1845人,患病率为3.17%。对研究对象经采取随机抽样的方法,将其分为训练集和测试集,训练集共43592人,其中糖尿病肾病患病1377例,患病率3.16%,测试集共14350人,其中糖尿病肾病患病468人,患病率3.20%。
将训练集人群是否患有糖尿病作为因变量(1=患病,0=未患病),将肌酐、尿素、氯化物、钠、钙、葡萄糖6项对糖尿病肾病发病有统计学意义的指标作为自变量(1=不正常,0=正常),以 P<0.05 作为统计学显著性界限,拟合生成Logistic回归模型。以 Logistic回归模型的得分F表示个体患糖尿病肾病的风险程度。个体的得分F用式(1)计算,个体的得分越高,其患糖尿病肾病的风险程度越高。
F 代表个体糖尿病肾病患病风险的得分,Xi代表各危险因素(生化指标)的取值,𝛽𝑖代表危险因素的回归系数,𝛼代表回归方程的常数项。 由此建立模型的方程见式(2)。
F越大,代表患病的风险越大。
将模型应用于训练集人群,计算出训练集人群每一个人的个体得分。计算后训练集人群的得分区间为(0,0.423)。首先以 0.04 为间隔,将得分分成 11 级。然后,计算出每个分级中的糖尿病肾病实际患病概率。最后,对得分与实际概率进行函数拟合,拟合的函数见式(3)。在拟合的过程中,实际共有8个数据点被采纳,(0.24,0.28)、(0.32,0.36)、(0.36,0.40)共3个分组由于数据缺失被略去。如图1所示。随着 Logistic 回归模型分值的增大,患病概率呈现升高的趋势。
3. Logistic回归评分模型的结果评估
对于模型进行得分计算可以发现,糖尿病肾病患者在Logistic回归评分模型中的得分明显高于非糖尿病肾病患者。经过卡方检验,两者的得分差异具有统计学意义。
通过对于模型的临界值进行结果预测发现,当临界分值为0.03时,约登指数最大,为0.737,故视0.03为临界阈值,即视分值大于0.03为患病,小于0.03为未患病。
当Logistic回归评分模型的临界阈值为0.03时,对模型进行评价。可得预测结果统计如表所示:
模型的评价结果为:
- 正确率(Accuracy):A=89.60%;
- 灵敏度(Sensitivity):Se =85.04%;
- 特异度(Specificity):Sp=89.76%;
- 约登指数=0.746.
用于评价Logistic回归评分模型的测试集共14350人,其中糖尿病肾病患病468人,患病率为3.20%。从评价结果来看,Logistic回归评分模型的正确率与特异度分别为89.60%和89.76%,处于比较高的水平,可以用于糖尿病患者群体的糖尿病肾病的筛查工作。
下一阶段目标
1.进行糖尿病患者生化指标与糖尿病肾病的关联性分析:主要包括两部分,生化常规检查中的一些指标与糖尿病肾病之间的关联关系 以及生化指标之间的关联关系。 2.整合项目结果,撰写最终报告。
项目分工
-李若松:数据初步筛选及二值化处理 -董国昭、雷丙震:基于生化检测的糖尿病肾病发病预测模型(Logistic回归算法) -王永昊、董小楠:糖尿病患者生化指标与糖尿病肾病的关联性分析(Apriori关联算法)