二手车交易价格预测-天池比赛

成员

  • 王宇彬(3220190887)
  • 孙心桐(3120191044)
  • 于明菲(3120191069)
  • 韩秉峰(3120190999)
  • 赵柏翔(3120195512)

问题描述

以二手车市场为背景,要求预测二手汽车的交易价格,这是一个典型的回归问题。

1、问题背景及分析

选题来自天池比赛,以预测二手车的交易价格为任务,数据集报名后可见并可下载。

该数据来自某交易平台的二手车交易记录,总数据量超过40w,包含31列变量信息,其中15列为匿名变量。为了保证比赛的公平性,将会从中抽取15万条作为训练集,5万条作为测试集A,5万条作为测试集B,同时会对name、model、brand和regionCode等信息进行脱敏。

由于该问题是个回归问题,先对数据进行预处理,再使用多种回归方法预测二手车的价格。

2、问题描述

2.1 数据准备

从天池比赛官方下载表格数据,先处理表格中的缺失值数据,再人工选择对于预测价格有用的列,做特征工程。

2.2 准备采用的方法或模型

先考虑用最简单的线性回归进行预测,看看效果,后面再考虑使用神经网络。

2.3 预期的挖掘结果

预期可以较为正确预测出二手车的价格。

项目评估

最后对模型使用平均绝对误差MAE和MAPE方法以对预测结果进行评估,MAPE方法不仅仅考虑了预测值与真实值的误差,还考虑了误差与真实值之间的比例,在统计领域是一个常用的预测准确性的衡量指标;

对二手车的价格进行预测的模型类型如下:

1)对于同一类车品牌,不同车龄、不同受损程度、燃油类型等进行价格预测; 2)受损程度相同,车身类型不同的汽车的价格预测; 3)相同品牌类型,不同地区类型区域的汽车价格预测;

期望模型能够根据汽车具备的不同条件合理、准确的预测出价格;

项目分工

  • 王宇彬,于明菲:数据的收集和预处理,数据分析,数据可视化,协助完成模型设计与实现;
  • 韩秉峰,赵柏翔:算法实现,模型设计;
  • 孙心桐:文档编写,结果展示。