天池精准医疗大赛–糖尿病风险预测

成员

  • 葛传斌
  • 殷赫
  • 李玥儿
  • 秦娜

问题描述

1、问题背景分析

随着经济的迅速发展,人们的生活水平大幅提高,越来越多的人开始关注医疗健康问题。糖尿病是一组以高血糖为特征的代谢性疾病,糖尿病时长期存在的高血糖,导致各种组织,特别是眼、肾、心脏、血管、神经的慢性损害、功能障碍,现已成为目前较为普遍的疾病。我国是世界上糖尿病患者最多的国家,病人达到1.1亿,每年有130万人死于糖尿病及其相关疾病。每年用于糖尿病的医疗费用占中国公共医疗卫生支出的比例超过13%,超过3000亿元。

2、问题描述

通过糖尿病人的临床数据和体检指标来预测人群的糖尿病程度,以血糖浓度为指标,设计高精度,高效,且解释性强的算法来进行糖尿病的预测。

2.1. 数据准备

数据来自天池大数据竞赛,包括训练文件d_train.csv和测试文件d_test.csv,每个文件第一行是字段名,之后每一行代表一个个体。文件共包含42个字段,包含数值型、字符型、日期型等众多数据类型,部分字段内容在部分人群中有缺失,其中第一列为个体ID号。训练文件的最后一列为标签列,既需要预测的目标血糖值。

2.2. 模型建立

对数据进行关联规则挖掘,找出数据集中与血糖值有关的关联规则,初步探索血糖值与各个属性之间的关系。

利用其中与血糖值相关性高的属性建立血糖值的预测模型,对糖尿病风险进行评估。

项目评估

将预测的血糖值于个体实际检测到的血糖结果进行对比,以均方误差为评价指标,结果越小越好。

项目分工

李玥儿,秦娜 : 完成数据预处理、结果的可视化、报告撰写等工作。

葛传斌,殷赫 :  完成关联规则挖掘、预测模型建立、报告撰写等工作。