二手车交易价格预测

1.1 问题背景

随着人们生活水平的提高，越来越多的人会选择购买轿车。购买二手车的人也增长迅速，各种各样的二手车交易平台（瓜子二手车，人人车等）也应运而生。由于购买轿车对于大多数普通人来说是一笔很大的支出，所以二手车的价格是一个很重要的考量，怎样根据车辆状况买到价格合适的轿车也是很多人关心的问题。

1.2 项目分析及数据集说明

本项目以利用来自某交易平台的二手车交易记录来预测二手车的交易价格为任务。所采用数据集总数据量超过40w，包含31列变量信息，其中15列为匿名变量。从中抽取出15万条作为训练集，5万条作为测试集A，5万条作为测试集B，同时对name、model、brand和regionCode等敏感信息进行脱敏。

1.3 数据集属性说明

2.1 数据准备

由于采用的是公开的数据集，所以我们直接对数据集进行缺失值处理等预处理，并对数据集进行分析（数据总览，分布情况等）及可视化。

2.2 准备采用的方法或模型

此问题为回归问题，我们拟采用两种不同的算法（如线性回归模型，决策树等）对其进行预测，并对预测结果进行对比。

2.3 预期的挖掘结果

利用数据集中的不同属性建立模型并利用模型实现对测试集数据中二手车价格的预测。

本项目最后采用MAE(Mean Absolute Error)作为评价标准：

$\text{MAE} = \frac{\sum_{i=1}^{n}\left | y_{i} - \hat{y}_{i}\right |}{n}$

MAE越小，说明模型预测越准确。