PISA数据集数据可视化

小组成员

何果财
秦晓东

问题描述

背景

PISA是OECD经济合作与发展组织的项目，主要对接近完成基础教育的15岁学生进行评估，测试学生是否掌握参与社会所需的知识与技能。2015年的PISA，共有代表72个国家和地区的15岁的五十万学生参加，此次项目在科学，数学，阅读，协作解决问题和金融知识进行了评估。PISA项目有大量的数据产生，OECD也为此举办了数据可视化竞赛。

可视化的意义

数据可视化是数据挖掘领域重要的一部分，它是把数据中的知识以视觉的方式呈现给观众。一个好的可视化可以在尽可能短的时间内使观众获得其中包含的信息，同时，视觉可视化也对数据建模与挖掘提供优化的思路。

</img>

可视化元素

可视化是数据科学的重要组成部分。通常情况下，可视化包含很多常见的可视化元素，包括尺寸、色调、颜色、饱和度、方向、形状、纹理等等。可视化方法就是利用这些可视化元素，用好的视觉效果将数据中的知识展现出来。

</img>

项目目标

PISA是一个教育项目，它产生了很多的教育数据，我们的目标：

对数据集提出一些问题
使用数据分析方法，挖掘PISA数据中蕴藏的知识
进而使用数据可视化工具，将挖掘出的内容以视觉方式展现

数据集

PISA数据集是OECD在全球范围内举办的青少年知识评估项目产生的，它主要包含一下几个方面的数据：

学生的问卷
学校的调查问卷
家庭的调查问卷

其中，数据的维度相当大，即字段非常地多，如学生的问卷数据就多达636个。好在从数据源获得的数据已经是结构化的，这简化了于我们的数据清洗工作。

项目流程

收集数据，熟悉数据
数据清洗
提出问题，举例：
- 学校因素在解释学业成绩方面的重要性。
- 基于性别、国家或学生态度的成绩差异。
- 基于教师实践和态度的成绩差异。
- 成绩的不均等。
针对问题进行数据分析
制作可视化

项目分工

何果财：数据收集，数据清洗，数据分析与可视化，文档编写
秦晓东：数据清洗，提出问题，数据分析与可视化