数据挖掘@北京理工大学

注意: 上方的内容不要删除

项目题目

未来房价走势预测

成员

姓名	学号
李本源	3120180995
李博闻	3120180996
李营	3120181003
卢是男	3220180724

问题描述

1、问题背景分析

　　深度神经网络是当前机器学习领域乃至整个计算机科学领域最热门的技术之一，它广泛用于金融、医疗、人工智能、模式识别等领域。

　　目前，对未来房价进行预测还是一大难题，房价每天都在发生着变化，也引得很多有买房想法的人去关注，房价的一点风吹草动都在牵动着人心。对房价进行预测能够帮助有购房意愿的人们更好地购房。我们可以把房价预测问题视为机器学习领域中典型的回归问题，我们可以使用神经网络进行拟合来尝试解决这一问题。

2、问题描述

　　用深度神经网络进行未来房价预测即用深度神经网络进行建模，建立影响房价的诸多因素和房价之间的关系的神经网络模型，该模型输入各个自变量，输出根据这些信息得到的房价。我们将数据中的训练集用于模型的训练，然后用测试集检测模型的效果，然后我们可以使用未来的一些影响房价的因素信息来得到对未来房价的预测。

2.1 数据准备

　　从链家等网站抓取一些城市一段时间的房价信息。然后对于所选择的城市统计整理其人口、社会、经济因素等数据信息，例如人口数量，211高校数量，大型企业的数量，大型医院的数量，该城市的广义货币供应量等，或者以上数据的密度等，并且对于不同的时间年份的这些数据进行统计。对这些数据进行合适的选取以及处理，并且划分好训练集和测试集，分别用于训练模型以及测试模型的效果。

2.2 模型建立

　　我们计划用一个比较小的神经网络，其中包含两个隐藏层，一般来说，训练数据越少，过拟合就会越严重，而较小的网络可以降低过拟合。网络的最后一层只有一个单元，没有激活，是一个线性层。这是标量回归（标量回归是预测单一连续值的回归）的典型设置。添加激活函数将会限制输出范围。例如，如果向最后一层添加sigmoid激活函数，网络只学会预测0-1范围内的值。这里最后一层是纯线性的，所以网络可以学会预测任何范围内的值。这里，我们使用mse损失函数（均方误差），这是回归问题常用的损失函数。

2.3 预期的结果

　　通过对数据合适的选择和处理，能够训练出一个比较合理的神经网络模型，这个模型能够在测试集上得到比较合理的结果。并且给出一些未来的城市相应数据时，这个网络能够根据这些数据预测这个时期的房价，从而能够给有购房意愿的人群有一个合适的参考。

项目评估

　　如果能够使得测试集中的数据能够得到一个比较合理的结果的话，那么对了未来房价的估计应该也能够得到一个比较合理的结果。

项目分工

姓名	任务
李本源	神经网络的实现
李博闻	整合、测试
李营	测试和报告的撰写
卢是男	数据的获取和处理