看程序员如何用代码解决租房的烦恼?

来源:互联网 发布:淘宝上新技巧 编辑:程序博客网 时间:2024/06/11 19:52

点击查看全文


 租房的烦恼,相信大家或多或少都有过。独自一人在大都市打拼,找个温暖的小窝实属不易,租个称心又价格公道的房子是件重要的事儿。 本文作者、阿里工程师鹿星,也是众多北漂中的一员。如何从各大租房网的房源里面,找到最称心如意的小窝?今天让鹿星带大家看看数据能不能做出最优选择。


租房的烦恼,相信大家或多或少都有过。独自一人在大都市打拼,找个温暖的小窝实属不易,租个称心又价格公道的房子是件重要的事儿。

本文作者、阿里工程师鹿星,也是众多北漂中的一员。如何从各大租房网的房源里面,找到最称心如意的小窝?今天让鹿星带大家看看数据能不能做出最优选择。文末有代码。

选择困难症

毕业到现在两年多了,一直住的自如合租房,但因为各种原因住处已经换过4次,每次换租都是一件头疼的事。从茫茫房海中找一间中意的房间,实在是一件费时费力的活,对于我这种买东西直奔目的地的人来说,在这么多房间里对比各种房间属性选出最优的根本就是一种折磨(这里不得不说一下自如网的选房功能,列表筛选无法准备知道房间地点,而地图找房功能的筛选项又太少,实在无法满足我的需求),所以我每次都是草草选一个,将就着住。

最近在经历了又一次换租后,我萌生了把自如所有在租的房间数据都爬下来,找出最符合我预期的房间的想法,制作好一套流程以后再要换租的时候就可以无脑操作了。

爬取数据

分析之前需要从自如网上爬数据,我用的是Python的Scrapy爬虫框架,但第一遍采集后发现房间数量要比自如网上能查到的数量少,找了下原因发现是自如的房间列表页中有些房间条目是js动态生成的,因为Scrapy没有js引擎,只能爬取静态页面,这部分数据自然就没采集下来。利用scrapy-splash来提供js渲染服务,最终完整采集到了所有在租的自如房间数据,共7907条。采集到的数据样例如下。每一行是一个json格式的字符串



点击查看全文


原创粉丝点击