注意: 上方的内容不要删除

项目题目

天池挑战赛-幸福感指数预测

成员

吴殿钊 张宗毓 滕博文

问题描述

1、问题背景分析

在社会科学领域,幸福感的研究占有重要的位置。这个涉及了哲学、心理学、社会学、经济学等多方学科的话题复杂而有趣;同时与大家生活息息相关,每个人对幸福感都有自己的衡量标准。如果能发现影响幸福感的共性,生活中是不是将多一些乐趣;如果能找到影响幸福感的政策因素,便能优化资源配置来提升国民的幸福感。目前社会科学研究注重变量的可解释性和未来政策的落地,主要采用了线性回归和逻辑回归的方法,在收入、健康、职业、社交关系、休闲方式等经济人口因素;以及政府公共服务、宏观经济环境、税负等宏观因素上有了一系列的推测和发现。

2、问题描述

2.1 数据准本课题使用的数据来自中国人民大学中国调查与数据中心主持之《中国综合社会调查(CGSS)》项目,选取其中多组变量,包括个体变量(性别、年龄、地域、职业、健康、婚姻与政治面貌等等)、家庭变量(父母、配偶、子女、家庭资本等等)、社会态度(公平、信用、公共服务等等),来预测其对幸福感的评价。备 本课题使用的数据来自中国人民大学中国调查与数据中心主持之《中国综合社会调查(CGSS)》项目,选取其中多组变量,包括个体变量(性别、年龄、地域、职业、健康、婚姻与政治面貌等等)、家庭变量(父母、配偶、子女、家庭资本等等)、社会态度(公平、信用、公共服务等等),来预测其对幸福感的评价。 2.2 模型建立 采用探索性数据分析EDA(Exploratory Data Analysis)的分析方法,并且采用决策树进行数据挖掘。 2.3 预期的结果 使用EDA和决策树方法进行数据分析和挖掘,尽可能得到结果准确的不同个体变量在不同参数条件下的幸福感评价。

项目评估

提交结果为csv文件,其中包含id和happiness的预测值两列。 分数计算公式:

score=1/n ∑_1^n▒〖(y_i-y^)〗^2 其中n代表测试机样本数,yi代表第i个样本的预测值,y代表真实值

项目分工

算法研究、算法实现:吴殿钊 数据集准备、数据预处理、数据可视化实现:张宗毓 数据分析、报告撰写、PPT制作:滕博文