基于移动推荐算法的用户购买预测

成员

  • 2120171046 欧英子

问题描述

1、问题背景分析

在真实的业务场景下,我们往往需要对所有商品的一个子集构建个性化推荐模型,达到用户购买商品的推荐。在完成这件任务的过程中,我们不仅需要利用用户在这个商品子集上的行为数据,往往还需要利用更丰富的用户行为数据。除了基础的真实用户-商品行为数据,移动时代还特有带位置信息的数据,这就需要通过大数据和算法构面向建移动电子商务的商品推荐模型,挖掘数据背后丰富的内涵,为移动用户在合适的时间、合适的地点精准推荐合适的内容。

2、问题描述

定义如下的符号:

U —— 用户集合
I —— 商品全集
P —— 商品子集,P ⊆ I
D —— 用户对商品全集的行为数据集合

选题的目标是利用D来构造U中用户对P中商品的推荐模型。

2.1. 数据准备

采用了阿里云天池比赛提供的数据集,包括了20000用户的完整行为数据以及百万级的商品信息,数据包含两个部分。 第一部分是用户在商品全集上的移动端行为数据(D),表名为tianchi_fresh_comp_train_user_2w,包含如下字段:

字段 字段说明 提取说明
user_id 用户标识 抽样&字段脱敏
item_id 商品标识 字段脱敏
behavior_type 用户对商品的行为类型 包括浏览、收藏、加购物车、购买,对应取值分别是1、2、3、4。
user_geohash 用户位置的空间标识,可以为空 由经纬度通过保密的算法生成
item_category 商品分类标识 字段脱敏
time 行为时间 精确到小时级别

第二个部分是商品子集(P),表名为tianchi_fresh_comp_train_item_2w,包含如下字段:

字段 字段说明 提取说明
item_id 商品标识 抽样&字段脱敏
item_ geohash 商品位置的空间标识,可以为空 由经纬度通过保密的算法生成
item_category 商品分类标识 字段脱敏

训练数据包含了抽样出来的一定量用户在一个月时间(11.18~12.18)之内的移动端行为数据(D)。

2.2. 模型建立

使用训练数据建立推荐模型,输出用户在12.19这一天对商品子集购买行为的预测结果。

项目评估

采用经典的精确度(precision)、召回率(recall)和F1值作为评估指标。具体计算公式如下:

其中PredictionSet为算法预测的购买数据集合,ReferenceSet为真实的答案购买数据集合。F1值作为最终的唯一评测标准。

项目分工

  • 欧英子:数据分析与处理、算法设计、程序实现、文档编写、PPT制作