PISA数据集数据可视化-中期报告
小组成员
- 何果财
- 秦晓东
当前进展
对下载的数据集进行分析处理,对数据集提出简单问题,进行数据分析和可视化
数据集下载
数据集共包含485490学生的考察数据,主要包括学生成绩、家庭和学校情况三方面的数据。数据量比较大,但是下载下来的数据已经结构化处理,方便使用R语言进行数据分析和建模。
其中,文件名以2012.rda结束的文件是数据文件,文件名以2012dict.rda结束的文件是字段名和字段的含义
明确问题范围
经过研究,我们将可视化问题的范围定义到两个问题上:
- 与学校相关的问题,研究内容包括教师、计算机、图书馆、入学时间、授课方式等方面
- 对成绩的变化进行探索,包括性别、国家地区、学习时间、学科、书籍等影响因素
现阶段完成的可视化
1.探索学生成绩与家中书籍的数量关系?
2.学校和家庭对学生数学成绩的影响?
下一步工作
根据现阶段的可视化结果,可以看到一些因素对学生成绩的影响,符合我们的预期。接下来,要利用更多的信息进行可视化,探索数据中蕴含的关系。