新冠肺炎疫情趋势预测
成员
- 3120191045孙燕北
- 3220190897武星
问题描述
1、问题背景及分析
2020年突如其来的肺炎疫情,打乱了很多人的计划,也让很多人措手不及。新冠肺炎疫情传播在全社会范围内对企业、经济、人民生活造成了巨大影响。随着疫情的持续发展,各国政府鼓励运用大数据、人工智能等技术,在疫情监测分析方面发挥支撑作用。本次课设选题为预测美国新冠肺炎疫情的趋势,利用前一段时间内的疫情数据去预测之后每一天疫情发展的趋势,包括每一天感染人数。治愈人数以及死亡人数的预测等。
2、问题描述
2.1 数据准备
数据可以从世界卫生组织(WHO)官网以及美国疾病预防控制中心官网上找到公开的数据源,数据包括从2020.01.22起至目前为止的每一天美国新冠肺炎感染者、治愈者、死亡者人数。对这些数据进行合适的预处理,并且划分好训练集和测试集,分别用于训练模型以及测试模型的效果。
2.2 准备采用的方法或模型
由于数据是基于时间序列的数据,所以采用循环神经网络中的LSTM模型进行数据的预测,LSTM全名长短期记忆网络(Long Short-Term Memory)是一种时间循环神经网络,是为了解决一般的RNN存在的长期依赖问题而专门设计出来的,所有的RNN都具有一种重复神经网络模块的链式形式。通过在训练集上训练参数得到模型后在测试集上进行预测从而可以得到预测结果。
2.3 预期的挖掘结果
通过对数据合适的预处理以及模型的训练,能够得到一个较合理的神经网络模型,这个模型可以预测出美国在未来一段时间内每天新冠肺炎感染者、治愈者、死亡者人数,从而可以对人类社会控制传染病、保障社会公共卫生安全起到一定的辅助作用。
项目评估
对测试集预测结果采用均方根误差RMSE指标进行评估,均方根误差可以用来衡量预测值与实际值之间的偏差,该值越小说明预测结果越准确。
项目分工
- 孙燕北:构建模型与结果分析,文档编写
- 武星:数据分析与预处理,文档编写