用户行为预测

小组成员

  • 赵颖 2620160012
  • 王晓媛 2620160007
  • 李昱燃 2620160009

问题描述

1、问题背景分析

电信行业每天都产生着大量的用户行为数据信息,这些看似零散的数据,其实隐藏着巨大的商业逻辑,只要企业能够有效地运用它。用户行为预测,就是企业通过收集大量的有关客户消费习惯、社会属性、操作行为等信息的数据,建立适当的模型,预测客户在某些维度的行为,例如忠诚度、购买欲、增值性,这对于企业提高客户服务水平,增强企业市场竞争力有着极为重要的作用。

2、问题描述:

  1. 选择数据集。本项目数据集来自2009年KDD Cup竞赛所提供的法国Orange电信公司的客户特征描述数据,共1000个样本,230个特征变量。
  2. 数据预处理。对数据进行初步筛选,根据缺失值的多少、选取较为完整的若干个特征值。
  3. 构造分类模型。用随机森林、与AdaBoost结合的决策树、梯度提升决策树三种算法,由训练数据生成对应的分类器,用测试集分别对客户的忠诚度、消费欲和增值服务倾向性做出二元判别,并计算各分类器的准确率。
  4. 调参并分析最优结果。调整参数,比较准确率,分析三种分类器的分类效果,得到最优解。

目标

经过以上工作对用户行为的三个维度做出二元判别,并比较分析随机森林、与AdaBoost结合的决策树、梯度提升决策树三种模型的分类效果,从而能为企业的管理提供决策支持。

项目分工

  • 王晓媛: 分解剖析问题,阅读文献,选择算法
  • 李昱燃:数据预处理,对特征值进行筛选和过滤
  • 赵颖:具体代码的实现,训练数据,生成分类器并调参选取最优解