爱荷华州埃姆斯市房价预测

1. 数据获取及预处理

1.1 数据来源

我们使用的数据集来自Kaggle。

1.2 数据说明

数据集中包括训练模型所需的训练数据集(train.csv)，以及用于测试模型性能的测试数据集(test.csv)。每一条数据记录表示的是每间房屋的相关信息，其中训练数据有1460条，测试数据有1459条。数据的特征列有79个，其中35个是数值类型的，44个类别类型。由于特征过多，受篇幅限制，我们选取其中比较重要的特征进行介绍，其余特征可以参考数据集中的data_description.txt。

YearBuilt：建造年份
TotalBsmtSF: 地下室面积
GrLivArea: 生活面积
1stFlrSF：一楼面积
FullBath: 带浴缸或淋浴的盥洗室数量
OverallQual：对房子的整体材料和装修进行评估
GarageCars：车库可容纳的车辆数
GarageArea: 车库面积
YearBuilt：建造年份

1.3 数据预处理

完成了如下的数据预处理工作。

1.3.1 缺失值处理

我们统计一下数据的缺失值，

可以发现有一些特征缺失值达到了50%以上，对于此类我想在后续处理过程中最好直接剔除该特征。那些缺失值少的特征，我们可以根据不同特征进行不同的分析。其中Garage为前缀的几个特征，可以发现它们具有相同的缺失值个数，有可能这些缺失是来自同几条数据。经过后续的数据可视化以及数据相关度分析，我们发现车库的重要特征是GarageCars和GarageArea，其他的特征对于房屋价格影响甚微，外加我们的经验可以判断，这几个车库特征可以舍弃。同样的，我们可以发现这后边的这几个缺失值似乎都是不那么重要的特征，外加有非常多（将近80个）的特征待分析，可以直接删去含有缺失值的特征。不过Electrical这个特征只有一个缺失值，我们可以选择删除该条数据而不是特征。这样我们就得到了不含缺失值的数据了。