马的疝病分析
1. 问题描述
疝病是描述马胃肠痛的术语,这种病不一定源自马的胃肠问题,其他问题也可能引发马疝病。所给数据集是医院检测的一些指标。
2. 数据说明
下载数据: 地址
共368个样本,27个特征。关于特征的详细说明见下载链接。
3. 数据分析要求
3.1 数据可视化和摘要
数据摘要
- 对标称属性,给出每个可能取值的频数,
- 数值属性,给出最大、最小、均值、中位数、四分位数及缺失值的个数。
数据的可视化
针对数值属性,
- 绘制直方图,如mxPH,用qq图检验其分布是否为正态分布。
- 绘制盒图,对离群值进行识别
3.2 数据缺失的处理
数据集中有30%的值是缺失的,因此需要先处理数据中的缺失值。
分别使用下列四种策略对缺失值进行处理:
- 将缺失部分剔除
- 用最高频率值来填补缺失值
- 通过属性的相关关系来填补缺失值
- 通过数据对象之间的相似性来填补缺失值
处理后,可视化地对比新旧数据集。
4. 提交内容
- 分析过程的报告
- 分析程序
- 预处理后的数据集