基于数据挖掘技术的雾霾预测方法

成员

严超（3220190907）
薛晓军（3220190906）
于敬楠（3220190912）
白思萌（3120190975）
臧梓硕（3120191072）

问题描述

1、问题背景及分析

主要解决指定地区雾霾预测的问题。

以北京地区为例，北京地区的人们在冬天经常受到雾霾的困扰，雾霾严重影响着人们的身体健康，很多人因为雾霾严重空气质量差呼吸系统受到了一定程度的损害。在北京地区有多个环境监测点（万寿西宫、定陵、东四等），依据各个监测点的PM2.5浓度、PM10浓度、二氧化硫浓度等监测指标，对未来时刻的雾霾进行预测，有助于人们合理规划自己的出行，避免雾霾影响身体健康，也有利于对治理雾霾提出合理的建议。

在全国各个城市都有相应数量的环境监测点，每个环境监测点的环境数据包括：监测点名称、时间、空气质量指数AQI、空气质量指数类别、首要污染物、PM2.5细颗粒物、PM10可吸入颗粒物、一氧化碳、二氧化氮、臭氧1小时平均、臭氧8小时平均、二氧化硫。环境监测点的数据每一小时记录一次。

使用前n个小时的环境监测点数据，对指定地区未来时刻的雾霾进行预测。例如对北京地区进行雾霾预测时，使用北京地区、河北地区、天津地区的环境监测点数据来进行雾霾预测，预测的环境数据指标可以是PM2.5细颗粒物、空气质量指数AQI等环境监测点数据中的任意一种。

2、问题描述

2.1 数据准备

首先获取全国各个城市的环境监测点数据，获取的数据以一小时为间隔，并对数据进行存储。

对获取的数据进行处理，包括数据去重、缺失值补全、筛选所需数据、数据归一化等。接下来将数据转换为监督学习的格式，即数据特征+标签的格式。

2.2 雾霾预测方法

使用长短期记忆网络、门控循环神经网络等深度学习模型对特定地区的雾霾进行预测，并使用岭回归等机器学习方法进行雾霾预测，从中选择预测效果较好的模型。

将环境监测点数据集划分为训练集、验证集、测试集，使用训练集对雾霾预测模型进行训练，使用验证集和测试集对雾霾预测模型进行验证和测试。

2.3 预期挖掘结果

对特定地区未来时刻的雾霾指标进行预测，以帮助人们合理规划自己的出行，避免雾霾影响身体健康。

项目评估

预测的雾霾指标数据属于回归问题，所以评价指标使用均方根误差（RMSE）和平均绝对误差（MAE）。均方根误差对极大值和极小值有很好的反映，可以较好地反映预测的精确度，雾霾预测结果的均方根误差在25以内是较理想的；平均绝对误差使评价指标不会出现正负相抵的情况，可以更好地反映预测误差的真实情况。

项目分工

薛晓军：雾霾预测模型实现、文档编写
严超：雾霾预测模型实现、文档编写
于敬楠：环境监测点数据获取、文档编写
白思萌：数据处理、文档编写
臧梓硕：数据可视化、结果可视化、文档编写