天池大赛-工业蒸汽量预测

1. 数据获取及预处理

1.1 数据来源

本项目数据来源于天池大赛官网提供的两个txt数据文件。这些数据是经脱敏后的锅炉传感器采集的数据,采集频率是分钟级别。

1.2 数据说明

数据分成训练数据(train.txt)和测试数据(test.txt),其中字段”V0”-“V37”,这38个字段是作为特征变量,”target”作为目标变量。需要利用训练数据训练出模型,预测测试数据的目标变量。

1.3 数据预处理

  • 官方提供的数据较为清晰和完整,并不存在缺失值的情况;
  • 由于各个字段的含义暂不清晰,在此不进行异常值处理;
  • 根据数据可视化部分展示的特征相关性,我们选取与目标变量相关性绝对值0.1以上的特征变量,同时剔除存在高度相关性的特征变量;
  • 数据中个别特征波动较大可能会造成不同特征权重系数变化过大。为了降低这种情况的影响,我们将数据进行z-score标准化。

2. 数据分析与可视化

训练数据各字段分布如下图所示:

训练数据分布图

测试数据各字段分布如下图所示:

测试数据分布图

特征相关性如下图所示:

特征相关性

特征变量与目标变量相关性绝对值0.1以上的有:

V0,V1,V2,V3,V4,V5,V6,V7,V8,V10,V11,V12,V13,V15,V16,V18,V19,V20,V22,V23,V24,V27,V29,V30,V31,V36,V37;

特征变量相关性0.8以上的有:

V0: V1 V8 ; V1: V8 V27 V31; V4: V12; V5: V11; V6: V7; V8: V27 V31 ; V10: V36; V15: V29; V23: V35;

选取与目标变量相关性绝对值0.1以上的特征变量,同时剔除存在高度相关性的特征变量。剩余变量为:

['V1','V2','V3','V4','V5','V6','V10','V13','V15','V16','V18','V19','V20','V22','V23','V24','V30','V37','target']

3. 模型选取

经过分析和讨论,决定分别采用随机森林方法和深度学习方法建立预测模型,对比不同方法的预测效果。

随机森林是由很多决策树融合在一起的算法,它属于Bagging框架的一种算法。每一颗决策树模型在构建的时候训练样本和特征变量是随机抽取的。这种随机性的引入使得随机森林模型不容易陷入过拟合,具有很好的抗噪能力。

深度学习是机器学习的一种,它通过组合低层特征形成更加抽象的高层表示属性类别或特征,以发现数据的分布式特征表示。深度学习具备很强的学习能力,它的神经网络层数很多,宽度很广,理论上可以映射到任意函数,可以解决很复杂的问题。

4. 挖掘实验的结果

该赛题预测结果以均方误差(mean square error)作为评判标准,称为score值。在我们的初步实验中,使用随机森林方法建立的预测模型score值为0.1477,使用深度学习方法建立的预测模型score值为0.7422。

5. 存在的问题

从初步挖掘实验的结果可以看出,使用深度学习方法建立的预测模型效果并不理想,下一步需对该模型作进一步改进。

6. 下一步工作

下一步计划对两个模型进行参数调优等优化,进一步提升预测效果,降低预测结果的均方误差。之后,再对两个模型进行对比分析,完成最终报告。

7. 任务分配与完成情况

  • 王元杰:深度学习方法实现,文档编写(完成模型搭建,产生初始结果)
  • 宋迎新:随机森林方法实现,文档编写(完成模型搭建,产生初始结果)
  • 苏向迎:深度学习方法调参、测试,文档编写(即将开始参数调优、模型测试)
  • 孙天柠:随机森林方法调参、测试,文档编写(即将开始参数调优、模型测试)
  • 产子健:数据分析,实验结果分析,文档编写(完成数据分析和部分文档编写)