天池大赛-工业蒸汽量预测

本项目数据来源于天池大赛官网提供的两个txt数据文件。这些数据是经脱敏后的锅炉传感器采集的数据，采集频率是分钟级别。

数据分成训练数据（train.txt）和测试数据（test.txt），其中字段”V0”-“V37”，这38个字段是作为特征变量，”target”作为目标变量。需要利用训练数据训练出模型，预测测试数据的目标变量。

训练数据各字段分布如下图所示：

训练数据分布图

测试数据各字段分布如下图所示：

测试数据分布图

特征相关性如下图所示：

特征相关性

特征变量与目标变量相关性绝对值0.1以上的有：

V0,V1,V2,V3,V4,V5,V6,V7,V8,V10,V11,V12,V13,V15,V16,V18,V19,V20,V22,V23,V24,V27,V29,V30,V31,V36,V37；

特征变量相关性0.8以上的有：

V0: V1 V8 ; V1: V8 V27 V31; V4: V12; V5: V11; V6: V7; V8: V27 V31 ; V10: V36; V15: V29; V23: V35;

选取与目标变量相关性绝对值0.1以上的特征变量，同时剔除存在高度相关性的特征变量。剩余变量为：

['V1','V2','V3','V4','V5','V6','V10','V13','V15','V16','V18','V19','V20','V22','V23','V24','V30','V37','target']

经过分析和讨论，决定分别采用随机森林方法和深度学习方法建立预测模型，对比不同方法的预测效果。

随机森林是由很多决策树融合在一起的算法，它属于Bagging框架的一种算法。每一颗决策树模型在构建的时候训练样本和特征变量是随机抽取的。这种随机性的引入使得随机森林模型不容易陷入过拟合，具有很好的抗噪能力。

深度学习是机器学习的一种，它通过组合低层特征形成更加抽象的高层表示属性类别或特征，以发现数据的分布式特征表示。深度学习具备很强的学习能力，它的神经网络层数很多，宽度很广，理论上可以映射到任意函数，可以解决很复杂的问题。

该赛题预测结果以均方误差（mean square error）作为评判标准，称为score值。在我们的初步实验中，使用随机森林方法建立的预测模型score值为0.1477，使用深度学习方法建立的预测模型score值为0.7422。

从初步挖掘实验的结果可以看出，使用深度学习方法建立的预测模型效果并不理想，下一步需对该模型作进一步改进。

下一步计划对两个模型进行参数调优等优化，进一步提升预测效果，降低预测结果的均方误差。之后，再对两个模型进行对比分析，完成最终报告。