爬虫实战:从数据到产品
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

第2章 基于位置信息的爬虫Ⅰ

2.1 背景及目标

2016年是共享单车行业疯狂扩张的一年。2016年4月22日,摩拜单车在上海正式运营。同年10月,ofo在北京、上海开启试运营。

2018年1月17日,ofo宣布上线全新的奇点城市慢行交通管理平台,将ofo奇点人工智能大数据信息向城市管理部门开放,携手管理部门实现共享单车城市运营科学管理。摩拜单车于2018年1月18日宣布开放海量出行大数据,在确保用户隐私和数据安全的前提下,通过与科研机构的合作,共同推进共享单车精细化、智能化管理,并在城市规划、绿色出行、可持续交通等领域发挥积极作用。

一些机构也发布了与国内共享单车有关的报告。2017年,清华大学中国新型城镇化研究院与摩拜合作发布了《2017年共享单车与城市发展白皮书》。微软亚洲研究院也对摩拜单车的运营案例进行了研究,并进行了数据可视化分析。

对于高校师生和城市规划研究爱好者来说,可通过单车数据对城市进行多维度的研究。然而,互联网上能够找到的单车出行数据非常有限。2017摩拜杯算法挑战赛中,摩拜单车官方提供过部分数据,包含北京300万条的用户出行记录和40万辆单车的相关数据,这些数据为研究者提供了非常好的官方数据来源。

Kaggle在2015年举办了一场关于共享自行车出行的比赛,该比赛提供了美国华盛顿的Capital Bikeshare的部分数据。除这些数据外,互联网上也有很多有趣的研究。

(1)WoBike

WoBike提供了世界范围内大量共享单车接口的访问方法,其中包括ofo和摩拜单车的接口及使用方法。

(2)pybikes

pybikes提供了超过50种共享单车资源的接口访问方式,以有桩自行车为主。它提供了简单的API,但并未包含ofo和摩拜单车的接口,也没有提供Python 3的接口,获取的信息相当有限。该库为CityBikes网站提供了数据支持。

(3)xxbike-crawler

最早的摩拜单车爬虫,实现了抓取、分析、可视化的部分功能。其中的login分支也提供了某单车登录的接口。由于某单车接口进行了更新,因此该爬虫已经失去了作用。

(4)ofo-spider

该项目受xxbike-crawler的启发进行了ofo的API的分析,实现了ofo单车的注册和登录的自动化过程,完成了对ofo信息的抓取。