北京市短租房源推荐
1.数据获取和预处理
1.1 数据来源
数据来自天池大赛Tianchi Data Hero Cup-短租数据集分析官方提供的数据集,活动数据来自Airbnb公开的北京地区的房屋短租数据。
1.2 数据说明
数据集中包含28469行信息,其中每条数据包含16个字段,包含数值型、字符型、日期型等众多数据类型。
字段 | 说明 | 字段 | 说明 |
---|---|---|---|
Id | 记录id | Name | 短租房名称 |
Host_id | 房主id | Host_name | 房主名 |
Neighbourhood_group | 行政区划组 | Neighbourhood | 行政区划 |
Lattitude | 经度 | Longitude | 维度 |
Room_type | 房屋类别 | Price | 价格 |
minimum_nights | 最短居住时间 | number_of_reviews | 评论数 |
last_review | 最近评论时间 | reviews_per_month | 每月评论占比 |
calculated_host_listings_count | 可出租房屋 | availability_365 | 可租时间 |
1.3 数据预处理
对数据进行预处理,由于neigborhood_group列为空值,对数据挖掘没有用处,所以将本列删除,由于包含空值的记录相对于总体数据集来说占比较少,所以直接删除包含缺失值的记录。
2.数据分析和可视化
2.1 房源
我们先对房源的位置进行了分析,根据数据分析我们可以看出在朝阳区的房屋占比更高,高达38%。
一共有三种类型的房源,分别是整租、合租、群租,其中整租的房间占比很大,高达59.9%。
2.2 价格
以下是不同房型的房源数量和平均价格,由图可以看出整租或公寓的价格最高且数量较多,因为现在人们在满足衣食住行的同时还注重生活品质,个人隐私等问题,所以几百年整租价格更高但房源却更多。
不同房型在不同地区的价格也有明显的差别,我们截取了每种房型25%-75%之间的价格,防止离群点对数据分析的影响,可以看出怀柔、昌平、延庆县的房屋价格更高,而房源更加密集的朝阳区价格比较低。
3.模型选取
我们决定采用经典算法Aprior算法实现,而Aprior算法的基本思想是首先是找出所有大于最小支持度的频繁项集,然后由频繁项集产生关联规则,这些规则必须满足最小支持度和最小可信度。Apriori算法是用来发现频繁项集的一种方法。在通过Aprior算法对数据进行挖掘后,再通过长短期记忆网络(LSTM)对短租房的评论进行情感分析,推荐优质房源。
4.挖掘实验的结果
数据的预处理和分析已经进行完毕,在数据处理上花费了一些时间,挖掘实验还没有出结果。挖掘实验的结果将在最终报告中展示。
5.存在的问题
在数据处理的过程中,出现了同一地区整租的价格低于合租价格的情况,这明显是不切合实际的,我们在剔除了离群点后再对数据进行可视化分析,符合实际情况。
6.下一步工作
之后我们将继续进行数据挖掘,根据需求进行简单的房源推荐。对满足条件的房源信息进行评论挖掘,使用LSTM进行文本情感分析,推荐优质房源。