Airbnb短租数据集挖掘

成员

秦肖睿 3120191035
林鹤翔 3120191021
田迎晨 3120191047
王瀚锋 3220190980
刘逸凡 3220190847

问题描述

对北京市的短租数据集进行数据分析并将数据可视化及关联规则挖掘

1、问题背景及分析

共享，通过让渡闲置资源的使用权，在有限增加边际成本的前提下，提高了资源利用效率。随着信息的透明化，越来越多的共享发生在陌生人之间。短租是共享空间的一种模式。短租是一种以24小时为计量单位，按天计费的房屋租赁形式，故短租又称日租。短租房有高性价比、特色、浓厚居家感的特点，比起传统酒店的客房更具竞争优势。短租房已经成为人们出行住宿的新选择。但是对于一个在外的旅客，如何寻找合适的短租房是一个要紧的问题，故本组希望能够通过对短租数据集进行数据分析，并将数据可视化，以此来分析北京地区的短租房房源分布和房源价格以及房源的类型，同时对数据集进行频繁模式和关联规则挖掘。数据来自Airbnb于2019年4月17日公开的北京地区数据。数据均来源于Airbnb网站的公开信息，不包含任何个人隐私数据。

2、问题描述

2.1 数据准备

存储于listings.csv中，数据为短租房源基础信息，包括房源、房东、位置、类型、价格、评论数量和可租时间等等

2.2 准备采用的方法或模型

先对数据进行清洗，再将数据进行可视化。再根据清洗后的数据，使用Apriori算法进行频繁模式和关联规则挖掘

2.3 预期的挖掘结果

房源价格之间会有差异，但是大部分应该在1000元以下
房源最多的是朝阳区，房源均价最高的是怀柔区
Entire home类型的房源数量较多，价格也不低

项目评估

主要说明如何对挖掘的结果进行评价
查看数据可视化结果是否清晰，准确。
对数据的分析是否合理，是否有遗漏
对关联规则的评价
查看关联规则和频繁模式挖掘的结果和数据可视化结果是否存在冲突

项目分工

王瀚锋、秦肖睿：数据清洗和可视化
刘逸凡、田迎晨、林鹤翔：频繁模式和关联规则挖掘、对分析结果的总结