项目进展报告

数据获取及预处理

在2016年1月1日至2016年6月30日之间真实线上线下消费行为中,数据集中有三个数据表:用户线下消费优惠券领取行为表、用户线上点击/消费和优惠券领取行为。

Table 1: 用户线下消费和优惠券领取行为,记录数:1754884

Table 2: 用户线上点击/消费和优惠券领取行为,记录数:11429826

Table3: 用户O2O线下优惠券使用预测样本,记录数:113640

数据预处理: (1) 主要是类型转换 (2) 空值填充 (3) 将Discount_rate的满减形式都转换为折扣率。

数据分析与可视化

描述对数据进行探索性分析的结果,采用可视化的技术呈现 1.对用户线下消费和优惠券领取行为表进行分析:

 有优惠券,购买商品条数: 75382

 无优惠券,购买商品条数: 701602

 有优惠券,不购买商品条数:977900

 无优惠券,不购买商品条数: 0

 在测试集中出现的用户但训练集没有出现:[2495873L, 1286474L]

 在测试集中出现的商户但训练集没有出现:[5920L]

说明:

(1)数据中大量的购物券没有花掉(977900),其中很多人购买商品没有优惠券(701602), 用优惠券购买商品的只有很少一部分人(75382)。

(2)dftest中有2个用户是新的,没有出现在dfoff中。dftest中有1个商铺是新的,没有出现在dfoff中。

2.优惠券和距离

处理换算为打折率,处理方式:

(1)将满xx减yy类型(xx:yy)的券变成折扣率 : 1 - yy/xx,同时建立折扣券相关的特征 discount_rate, discount_man, discount_jian, discount_type

(2)将距离str转为int。

3.分析时间

 优惠券收到日期: 20160101~ 20160615

 消费日期: 20160101~ 20160630

每天的顾客收到coupon的数目,以及收到coupon后用coupon消费的数目,如图所示。

模型选取

选择了哪些数据挖掘方法对数据进行分析与挖掘,及选择的理由

 特征值:discount, distance, weekday

 train/valid 的划分:用20160101到20160515的作为train,20160516到20160615作为valid。

 模型:用线性模型 SGDClassifier

挖掘实验的结果

进行数据挖掘后得到的结果

运行时间超过2小时,人为中断,未得到结果。

存在的问题

到目前为止,遇到哪些问题,及解决方法或思路

运行时间长,查找是前期处理是否存在错误,或寻找运行时间短的模型。

下一步工作

准备如何完成后续的工作

在数据的划分、特征提取、模型选取上进一步研究。