高潜用户购买意向预测(阶段报告)
一、小组成员
- 孟玉立 2120161024
- 谢瑄 2120161065
- 王龙 2120161054
- 王欣欣 2120161059
- 商军英 2120161032
二、完成情况
1.数据清理
对于高潜用户购买意向预测这个问题,从数据挖掘的角度来讲我们可以认为这是一个二分类的任务。那么我们就是尝试去构建自己的正负样本.
由于我们拿到的是原始数据,里面存在很多噪声,因而第一步我们先要对数据清洗,比如说:
去掉只有购买记录的用户(没有可用的历史浏览等记录来预测用户将来的购买意向)
去掉浏览量很大而购买量很少的用户(惰性用户或爬虫用户)
去掉最后5(7)天没有记录(交互)的商品和用户
为了能够进行上述清洗,在此首先构造了简单的用户(user)行为特征和商品(item)行为行为特征,对应于两张表user_table和item_table
user_table特征包括:
user_id(用户id),age(年龄),sex(性别),
user_lv_cd(用户级别),browse_num(浏览数),
addcart_num(加购数),delcart_num(删购数),
buy_num(购买数),favor_num(收藏数),
click_num(点击数),buy_addcart_ratio(购买加购转化率),
buy_browse_ratio(购买浏览转化率),
buy_click_ratio(购买点击转化率),
buy_favor_ratio(购买收藏转化率)
item_table特征包括:
sku_id(商品id),attr1,attr2,
attr3,cate,brand,browse_num,
addcart_num,delcart_num,
buy_num,favor_num,click_num,
buy_addcart_ratio,buy_browse_ratio,
buy_click_ratio,buy_favor_ratio,
comment_num(评论数),
has_bad_comment(是否有差评),
bad_comment_rate(差评率)
接下来我们将采用python2.7, pandas等工具实现上述过程.
2.数据分析
1)导入相关包
2)定义文件名
3)周一到周日各天购买情况分析,提取购买的行为数据
分析: 一周用户购买数量分布相对比较均衡,周六周日购买数相对较少,可能是此时大家去过周末了。
4)查看特定用户对特定商品的活动轨迹。
3.探索高潜用户的行为
题目是高潜用户购买意向预测, 那么理解清楚什么是高潜用户对于数据分析,特征抽取,以及之后的建立模型有着至关重要的作用.
简单来讲,作为训练集的高潜用户应该具有以下特征:
1)必须有购买行为
2)对一个商品购买和其他交互行为(浏览,点击,收藏等)时间差应该多于一天
3)更新Note: 可能存在买了又买的情况,这部分用户也不可忽略.
那么接下来,我们先尝试找出这些高潜用户,之后对他们的行为做一些数据分析.
项目目前进行到的就是这一阶段了,后面的工作还在进行之中。