项目进展报告

在2016年1月1日至2016年6月30日之间真实线上线下消费行为中，数据集中有三个数据表：用户线下消费优惠券领取行为表、用户线上点击/消费和优惠券领取行为。

Table 1: 用户线下消费和优惠券领取行为，记录数：1754884

Table 2: 用户线上点击/消费和优惠券领取行为，记录数：11429826

Table3: 用户O2O线下优惠券使用预测样本，记录数：113640

数据预处理：（1）主要是类型转换（2）空值填充（3）将Discount_rate的满减形式都转换为折扣率。

描述对数据进行探索性分析的结果，采用可视化的技术呈现 1.对用户线下消费和优惠券领取行为表进行分析：

 有优惠券，购买商品条数： 75382

 无优惠券，购买商品条数： 701602

 有优惠券，不购买商品条数：977900

 无优惠券，不购买商品条数： 0

 在测试集中出现的用户但训练集没有出现：[2495873L, 1286474L]

 在测试集中出现的商户但训练集没有出现：[5920L]

说明：

（1）数据中大量的购物券没有花掉(977900)，其中很多人购买商品没有优惠券(701602), 用优惠券购买商品的只有很少一部分人(75382)。

（2）dftest中有2个用户是新的，没有出现在dfoff中。dftest中有1个商铺是新的，没有出现在dfoff中。

2.优惠券和距离

处理换算为打折率，处理方式：

（1）将满xx减yy类型(xx:yy)的券变成折扣率 : 1 - yy/xx，同时建立折扣券相关的特征 discount_rate, discount_man, discount_jian, discount_type

（2）将距离str转为int。

3.分析时间

 优惠券收到日期: 20160101~ 20160615

 消费日期: 20160101~ 20160630

每天的顾客收到coupon的数目，以及收到coupon后用coupon消费的数目，如图所示。

选择了哪些数据挖掘方法对数据进行分析与挖掘，及选择的理由

 特征值：discount, distance, weekday

 train/valid 的划分：用20160101到20160515的作为train，20160516到20160615作为valid。

 模型：用线性模型 SGDClassifier

进行数据挖掘后得到的结果

运行时间超过2小时，人为中断，未得到结果。

到目前为止，遇到哪些问题，及解决方法或思路

运行时间长，查找是前期处理是否存在错误，或寻找运行时间短的模型。

准备如何完成后续的工作

在数据的划分、特征提取、模型选取上进一步研究。