项目题目

腾讯社交广告高校算法大赛-相似人群拓展

成员

姓名	学号
卞西墨	3120180978
沙九	3120181023
郑安庆	3220181078
白雪峰	3120180977

问题描述

1、问题背景分析

　　基于社交关系的广告（即社交广告）已成为互联网广告行业中发展最为迅速的广告种类之一。而复杂的社交场景，多样的广告形态，以及庞大的用户数据，给实现为用户提供精准高效的广告这一目标带来了不小的挑战。本次选题的题目源于腾讯社交广告业务中的一个真实的广告产品——相似人群拓展（Lookalike）。该产品的目的是基于广告主提供的目标人群，从海量的人群中找出和目标人群相似的其他人群。在实际广告业务应用场景中，Lookalike 能基于广告主已有的消费者，找出和已有消费者相似的潜在消费者，以此有效帮助广告主挖掘新客、拓展业务。目前，Lookalike 相似人群拓展产品以广告主提供的第一方数据及广告投放效果数据（即后文提到的种子包人群）为基础，结合腾讯丰富的数据标签能力，透过深度神经网络挖掘，实现了可在线实时为多个广告主同时拓展具有相似特征的高质潜客的能力。

2、问题描述

　　相似人群拓展（Lookalike）基于广告主提供的一个种子人群（又称为种子包），自动计算出与之相似的人群（称为扩展人群）。本题目将为参赛选手提供几百个种子人群、海量候选人群对应的用户特征，以及种子人群对应的广告特征。出于业务数据安全保证的考虑，所有数据均为脱敏处理后的数据。整个数据集分为训练集和测试集。训练集中标定了人群中属于种子包的用户与不属于种子包的用户（即正负样本）。测试集将检测参赛选手的算法能否准确标定测试集中的用户是否属于相应的种子包。训练集和测试集所对应的种子包完全一致。

2.1 数据准备

　　本项目使用的数据（脱敏后）抽取的时间范围是某连续30 天的数据。总体而言，数据分为：训练集数据文件、测试集数据文件、用户特征文件以及种子包对应的广告特征文件四部分。

2.2 模型建立

　　预计使用LightGBM作为基模型， LightGBM（Light Gradient Boosting Machine）是一个实现 GBDT 算法的框架，支持高效率的并行训练，并且具有以下优点：

更快的训练速度
更低的内存消耗
更好的准确率
分布式支持，可以快速处理海量数据

同时考虑使用XGBoost，FFM做集成。

2.3 预期的结果

　　首先需要通过合理的数据处理和模型搭建，获得可以接受的AUC值，与当年竞赛排行榜相比进入靠前的位置。其次通过属性组合、模型集成等方法，得到数据各个属性对于用户相似性的影响程度，以及各个模型对数据集的适用程度和对最终结果的贡献程度。

项目评估

　　对于扩展后的相似用户，如果在广告投放上有相关的效果行为（点击或者转化），则认为是正例；如果不产生效果行为，则认为是负例。每个待评估的种子包会提供如下信息：种子包对应的广告aid 及其特征，以及对应的候选用户集合（uid 及其特征）。选手需要为每个种子包计算测试集中用户的得分，比赛会据此计算每个种子包的AUC 指标，AUCi 表示第i 个包的AUC 值，并以所有待评估的m 个种子包的平均AUC 作为最终的评估指标。

项目分工

姓名	任务
白雪峰	数据获取、清洗、处理，撰写报告
沙九	LightGBM算法模型，撰写报告
卞西墨	模型集成与测试，撰写报告
郑安庆	分析与预测结果，撰写报告