项目进展报告
数据获取及预处理
在2016年1月1日至2016年6月30日之间真实线上线下消费行为中,数据集中有三个数据表:用户线下消费优惠券领取行为表、用户线上点击/消费和优惠券领取行为。
Table 1: 用户线下消费和优惠券领取行为,记录数:1754884
Table 2: 用户线上点击/消费和优惠券领取行为,记录数:11429826
Table3: 用户O2O线下优惠券使用预测样本,记录数:113640
数据预处理: (1) 主要是类型转换 (2) 空值填充 (3) 将Discount_rate的满减形式都转换为折扣率。
数据分析与可视化
描述对数据进行探索性分析的结果,采用可视化的技术呈现 1.对用户线下消费和优惠券领取行为表进行分析:
有优惠券,购买商品条数: 75382
无优惠券,购买商品条数: 701602
有优惠券,不购买商品条数:977900
无优惠券,不购买商品条数: 0
在测试集中出现的用户但训练集没有出现:[2495873L, 1286474L]
在测试集中出现的商户但训练集没有出现:[5920L]
说明:
(1)数据中大量的购物券没有花掉(977900),其中很多人购买商品没有优惠券(701602), 用优惠券购买商品的只有很少一部分人(75382)。
(2)dftest中有2个用户是新的,没有出现在dfoff中。dftest中有1个商铺是新的,没有出现在dfoff中。
2.优惠券和距离
处理换算为打折率,处理方式:
(1)将满xx减yy类型(xx:yy)的券变成折扣率 : 1 - yy/xx,同时建立折扣券相关的特征 discount_rate, discount_man, discount_jian, discount_type
(2)将距离str转为int。
3.分析时间
优惠券收到日期: 20160101~ 20160615
消费日期: 20160101~ 20160630
每天的顾客收到coupon的数目,以及收到coupon后用coupon消费的数目,如图所示。
模型选取
选择了哪些数据挖掘方法对数据进行分析与挖掘,及选择的理由
特征值:discount, distance, weekday
train/valid 的划分:用20160101到20160515的作为train,20160516到20160615作为valid。
模型:用线性模型 SGDClassifier
挖掘实验的结果
进行数据挖掘后得到的结果
运行时间超过2小时,人为中断,未得到结果。
存在的问题
到目前为止,遇到哪些问题,及解决方法或思路
运行时间长,查找是前期处理是否存在错误,或寻找运行时间短的模型。
下一步工作
准备如何完成后续的工作
在数据的划分、特征提取、模型选取上进一步研究。