精准营销中搜狗用户画像挖掘
成员
赵文天 2120171105
赵赫 2120171103
张映雪 2120171101
朱佳琪 2120171107
问题描述
1、问题背景分析
“物以类聚,人以群分”这句古语不仅揭示了物与人的自组织趋向,更隐含了“聚类”和“人群”之间的内在联系。在现代数字广告投放系统中,以物拟人,以物窥人,才是比任何大数据都要更大的前提。如何把广告投放给需要的人,是大数据在精准营销中最核心的问题,如何越来越精确的挖掘人群属性,也一直是技术上的天花板。对于企业主来说,了解自身产品的受众有助于进行产品定位,并设计营销解决方案。本题目以精准广告中一个具体问题为例,希望发掘到数据挖掘的优秀人才。
2、问题描述
在现代广告投放系统中,多层级成体系的用户画像构建算法是实现精准广告投放的基础技术之一。其中,基于人口属性的广告定向技术是普遍适用于品牌展示广告和精准竞价广告的关键性技术。人口属性包括自然人的性别、年龄、学历等基本属性。
在搜索竞价广告系统中,用户通过在搜索引擎输入具体的查询词来获取相关信息。因此,用户的历史查询词与用户的基本属性及潜在需求有密切的关系。
举例如下:
年龄在19岁至23岁区间的自然人会有较多的搜索行为与大学生活、社交等主题有关
男性相比女性会在军事、汽车等主题有更多的搜索行为
高学历人群会更加倾向于获取社会、经济等主题的信息
本题目提供用户历史一个月的查询词与用户的人口属性标签(包括性别、年龄、学历)做为训练数据,通过机器学习、数据挖掘技术构建分类算法来对新增用户的人口属性进行判定。
2.1. 数据准备
本项目数据来自2016年CCF大数据与计算智能大赛。
数据包含:
Train.csv—-带标注的训练集
Test.csv—–测试集
2.2. 模型建立 首先对用户查询文本进行分词处理,对于分词结果采用TF-IDF进行特征工程,并采用CNN提取词向量特征,使用集成算法结合两方面文本特征分别构造三个属性上的分类器模型。
项目评估
实验结果采用分类准确率进行评价。对于测试集产生的结果文件,全部与标准结果匹配计算准确率。其中,性别、年龄、学历分别计算准确率,最终以平均准确率作为评判依据。
项目分工
选题调研:张映雪、朱佳琪
数据分析、预处理:张映雪、赵文天
特征工程算法实现:朱佳琪、赵赫
神经网络算法实现:赵文天
分类器算法实现:赵赫
实验报告撰写:张映雪、朱佳琪