基于数据挖掘技术的雾霾预测方法
成员
- 严超(3220190907)
- 薛晓军(3220190906)
- 于敬楠(3220190912)
- 白思萌(3120190975)
- 臧梓硕(3120191072)
问题描述
1、问题背景及分析
主要解决指定地区雾霾预测的问题。
以北京地区为例,北京地区的人们在冬天经常受到雾霾的困扰,雾霾严重影响着人们的身体健康,很多人因为雾霾严重空气质量差呼吸系统受到了一定程度的损害。在北京地区有多个环境监测点(万寿西宫、定陵、东四等),依据各个监测点的PM2.5浓度、PM10浓度、二氧化硫浓度等监测指标,对未来时刻的雾霾进行预测,有助于人们合理规划自己的出行,避免雾霾影响身体健康,也有利于对治理雾霾提出合理的建议。
在全国各个城市都有相应数量的环境监测点,每个环境监测点的环境数据包括:监测点名称、时间、空气质量指数AQI、空气质量指数类别、首要污染物、PM2.5细颗粒物、PM10可吸入颗粒物、一氧化碳、二氧化氮、臭氧1小时平均、臭氧8小时平均、二氧化硫。环境监测点的数据每一小时记录一次。
使用前n个小时的环境监测点数据,对指定地区未来时刻的雾霾进行预测。例如对北京地区进行雾霾预测时,使用北京地区、河北地区、天津地区的环境监测点数据来进行雾霾预测,预测的环境数据指标可以是PM2.5细颗粒物、空气质量指数AQI等环境监测点数据中的任意一种。
2、问题描述
2.1 数据准备
首先获取全国各个城市的环境监测点数据,获取的数据以一小时为间隔,并对数据进行存储。
对获取的数据进行处理,包括数据去重、缺失值补全、筛选所需数据、数据归一化等。接下来将数据转换为监督学习的格式,即数据特征+标签的格式。
2.2 雾霾预测方法
使用长短期记忆网络、门控循环神经网络等深度学习模型对特定地区的雾霾进行预测,并使用岭回归等机器学习方法进行雾霾预测,从中选择预测效果较好的模型。
将环境监测点数据集划分为训练集、验证集、测试集,使用训练集对雾霾预测模型进行训练,使用验证集和测试集对雾霾预测模型进行验证和测试。
2.3 预期挖掘结果
对特定地区未来时刻的雾霾指标进行预测,以帮助人们合理规划自己的出行,避免雾霾影响身体健康。
项目评估
预测的雾霾指标数据属于回归问题,所以评价指标使用均方根误差(RMSE)和平均绝对误差(MAE)。均方根误差对极大值和极小值有很好的反映,可以较好地反映预测的精确度,雾霾预测结果的均方根误差在25以内是较理想的;平均绝对误差使评价指标不会出现正负相抵的情况,可以更好地反映预测误差的真实情况。
项目分工
- 薛晓军:雾霾预测模型实现、文档编写
- 严超:雾霾预测模型实现、文档编写
- 于敬楠:环境监测点数据获取、文档编写
- 白思萌:数据处理、文档编写
- 臧梓硕:数据可视化、结果可视化、文档编写