二手车交易价格预测
成员
- 宋昊霖(3120191040)
- 刘聪聪(3220190840)
- 李泽宁(3220190835)
- 曹健(3120190978)
- 张博(3220190916)
问题描述
1、问题背景及分析
1.1 问题背景
随着人们生活水平的提高,越来越多的人会选择购买轿车。购买二手车的人也增长迅速,各种各样的二手车交易平台(瓜子二手车,人人车等)也应运而生。由于购买轿车对于大多数普通人来说是一笔很大的支出,所以二手车的价格是一个很重要的考量,怎样根据车辆状况买到价格合适的轿车也是很多人关心的问题。
1.2 项目分析及数据集说明
本项目以利用来自某交易平台的二手车交易记录来预测二手车的交易价格为任务。所采用数据集总数据量超过40w,包含31列变量信息,其中15列为匿名变量。从中抽取出15万条作为训练集,5万条作为测试集A,5万条作为测试集B,同时对name、model、brand和regionCode等敏感信息进行脱敏。
1.3 数据集属性说明
Field | Description |
---|---|
SaleID | 交易ID,唯一编码 |
name | 汽车交易名称,已脱敏 |
regDate | 汽车注册日期 |
model | 车型编码,已脱敏 |
brand | 汽车品牌,已脱敏 |
bodyType | 车身类型 |
fuelType | 燃油类型 |
gearbox | 变速箱 |
power | 发动机功率 |
kilometer | 汽车已行驶公里 |
notRepairedDamage | 汽车有尚未修复的损坏 |
regionCode | 地区编码,已脱敏 |
seller | 销售方 |
offerType | 报价类型 |
creatDate | 汽车上线时间 |
price | 二手车交易价格(预测目标) |
v系列特征 | 匿名特征,包含v0-14在内15个匿名特征 |
2、问题描述
2.1 数据准备
由于采用的是公开的数据集,所以我们直接对数据集进行缺失值处理等预处理,并对数据集进行分析(数据总览,分布情况等)及可视化。
2.2 准备采用的方法或模型
此问题为回归问题,我们拟采用两种不同的算法(如线性回归模型,决策树等)对其进行预测,并对预测结果进行对比。
2.3 预期的挖掘结果
利用数据集中的不同属性建立模型并利用模型实现对测试集数据中二手车价格的预测。
项目评估
本项目最后采用MAE(Mean Absolute Error)作为评价标准:
MAE越小,说明模型预测越准确。
项目分工
- 李泽宁:数据分析及预处理,文档编写
- 张博:算法1实现及分析,文档编写
- 刘聪聪:算法2实现及分析,文档编写
- 宋昊霖: 数据可视化,文档编写
- 曹健: 文档整合与编写