预测天猫用户下月的购买情况
成员
- 2120131028蒋浩浩
- 2120141070薛景
- 2120141071闫文真
描述
根据用户4个月内在天猫的行为日志,建立用户的品牌偏好,并预测他们在将来一个月内对品牌下商品的购买行为。天猫开放的数据如下表所示:
字段 | 字段说明 | 提取说明 |
---|---|---|
User_id | 用户标记 | 抽样&字段加密 |
Time | 行为时间 | 精度到天级别&隐藏年份 |
Action_type | 用户对品牌的行为类型 | 包括点击、购买、加入购物车、收藏4种行为 |
Brand_id | 品牌数字ID | 抽样&字段加密 |
原始数据文件涉及到1千左右天猫用户,几千个天猫品牌,总共10万多条行为记录。整个的结果评估使用F1值来评判。
选题依据
此次选题并没有直接选择今年天池大数据比赛的题目,而是选择去年的题目有一定的原因。通过比较今年和去年的题目,发现今年的几个题目在复杂性上要比去年的要大,而且开放数据记录条数的整个量级比去年的多。我们觉得难度会比较大,不一定能够按时完成,相比来说去年的题目只包括4个字段类型,总共10万多条记录,而且网上可以参考分析的讨论也比较多,因此选择去年的比赛题目。
基本思路
我们下载到的只是去年的原始数据,并没有测试数据(测试为天池后台进行测试)。所以我们第一步是进行数据集的拆分,将4个月的天猫数据按照时间剥离开最后半个月的数据为测试数据,其余为原始数据。
预测天猫用户的行为可理解为一个是否购买的01分类问题,故按照基本分类思想,第一步为数据特征的构建。构建的特征可能包括用户总体购买、点击、点击转换为购买次数等,也可对数据按照时间片的方法进行统计。对数据进行特征提取后,选择合适的模型进行分类处理。使用常用的SVM分类或者其他分类算法进行分类预测。由于单一的分类模型可能不适合,也考虑使用多模型,然后利用boosting方法进行融合分析等。