预测天猫用户下月的购买情况

成员

  • 2120131028蒋浩浩
  • 2120141070薛景
  • 2120141071闫文真

描述

根据用户4个月内在天猫的行为日志,建立用户的品牌偏好,并预测他们在将来一个月内对品牌下商品的购买行为。天猫开放的数据如下表所示:

字段 字段说明 提取说明
User_id 用户标记 抽样&字段加密
Time 行为时间 精度到天级别&隐藏年份
Action_type 用户对品牌的行为类型 包括点击、购买、加入购物车、收藏4种行为
Brand_id 品牌数字ID 抽样&字段加密

原始数据文件涉及到1千左右天猫用户,几千个天猫品牌,总共10万多条行为记录。整个的结果评估使用F1值来评判。

选题依据

此次选题并没有直接选择今年天池大数据比赛的题目,而是选择去年的题目有一定的原因。通过比较今年和去年的题目,发现今年的几个题目在复杂性上要比去年的要大,而且开放数据记录条数的整个量级比去年的多。我们觉得难度会比较大,不一定能够按时完成,相比来说去年的题目只包括4个字段类型,总共10万多条记录,而且网上可以参考分析的讨论也比较多,因此选择去年的比赛题目。

基本思路

我们下载到的只是去年的原始数据,并没有测试数据(测试为天池后台进行测试)。所以我们第一步是进行数据集的拆分,将4个月的天猫数据按照时间剥离开最后半个月的数据为测试数据,其余为原始数据。

预测天猫用户的行为可理解为一个是否购买的01分类问题,故按照基本分类思想,第一步为数据特征的构建。构建的特征可能包括用户总体购买、点击、点击转换为购买次数等,也可对数据按照时间片的方法进行统计。对数据进行特征提取后,选择合适的模型进行分类处理。使用常用的SVM分类或者其他分类算法进行分类预测。由于单一的分类模型可能不适合,也考虑使用多模型,然后利用boosting方法进行融合分析等。