为数据而生:大数据创新实践
上QQ阅读APP看书,第一时间看更新

数据真正的精髓,还不是数据量的爆炸性增长和数据形态的多样性,而是数据与数据之间关联形式的变化。以前的数据与数据,就像漂浮在大海上的一个个孤岛,隔水相望却没有途径互相到达。而现在,一方面由于海岛自身面积的增大——得益于数据量的增加,另一方面由于海上交通工具的发明——得益于打通不同数据的技术和商业努力,连接不同岛屿之间的通路开始建立。大海孤岛的图景正在向着平原上阡陌交通的不同村落快速过渡。

地点数据

举个例子来说,“中关村云基地”是位于中关村软件广场上的一栋不高的办公楼。在北京的智慧城市建设项目中,我们能够找到关于这栋楼的文本描述;通过百度、高德、腾讯等地理信息数据接口,我们可以定位它的经纬度范围;通过北京市公安局公安交通管理局提供的地面磁感圈和摄像头的数据,我们能够知道有多少车辆通过了这栋楼、有多少车辆停在这里(车的主人极有可能是在这里办公),大部分车辆的车牌和车型通过摄像头数据都是可以识别的;通过顺丰、申通等快递公司的快递单,我们知道与这栋楼相关的物流情况;通过进出这栋楼的智能手机设备标识码及GPS数据,我们可以估计出在这栋楼里面工作的员工人数、他们大致的消费水平、他们在北京居住在哪些地方,等等;通过分析互联网招聘信息和招聘地址的经纬度范围,我们能够找到和这栋办公楼里的企业有关的招聘信息;通过对微博或签到等APP经纬度的分析,我们能够挖掘一些到过这栋楼并且签到的人……未来,Google眼镜还会泄露出这栋楼里里外外的图片和文本信息,从而我们可以自动地用这些图片和文本在互联网上搜索到相关媒体和论坛对这里的报道或讨论。

个人数据

对于个人而言,我们能够得到的数据种类更多。

通过手机,我们可以获得一个用户的短信和通话关系,他每天移动的轨迹——从而我们知道他有哪些朋友、住在哪里、工作在哪里、喜欢去哪里;通过社交媒体,我们可以获得一个用户的在线好友,他感兴趣的社区信息,以及他分享、评论和发布的文本和图片——从而我们知道他的社会影响力、兴趣爱好、是不是一个善于沟通的人;通过电子商务网站的记录,我们可以获取一个用户浏览、收藏、购买的数据——从而我们知道他的购买偏好、价格偏好、消费水平;我们甚至还能够追踪到一个人浏览网页的记录、论坛发言的记录、订阅报刊杂志的记录、使用手机应用的记录……当这些记录的关联显露出来,让我们知道,最近经常浏览孕婴网站并且参加了好几个准妈妈社区的小尼的老公小玛所使用的手机设备号,我们就能够通过手机推送广告,给小玛发送孕妈妈保健品的优惠券,而不是无穷无尽的房地产广告。广告商因为更精准的广告而获得收益,用户也因为接收到有价值的信息而非纯垃圾广告提高体验!

当然,在这些价值中,如何保护用户自身隐私数据的安全,是一个非常要害的问题。这本书不打算深入探讨这个问题,我们将来或许会专门探讨大数据带来的安全、隐私和伦理的冲击与对策!

针对地点,我们往往通过名称和经纬度范围进行数据之间关联的挖掘和分析。针对个人的地点数据要稍微复杂一些,有时候需要利用手机上的设备号识别同一台手机在不同地方留下的数据轨迹;有时候需要用到个人电脑上植入的存储在用户本地终端上的数据(Cookie);有的用户会在一些平台上分享自己在其他平台上的账号,例如在街旁的主页上列出自己的微博号,所以可以通过公开数据的爬取获得一些有价值的关联;百度、腾讯和B-ShareB-Share是一款关于web2.0的社会化分享按钮工具,用户浏览网站内容的同时可以把自己所感兴趣的内容通过一系列社会化关系网络分享、推荐给自己的好友。——编者注等企业提供了Open IDOpen ID是一个以用户为中心的数字身份识别框架,它具有开放、分散性。——编者注的便利,让用户可以用一个ID管理多个平台的账号,这是天然的可以打通数据的渠道。

最近,微软亚洲研究院的一篇研究论文显示,相当一部分用户在不同平台中使用一些相同且非常个性化的昵称,这个昵称几乎不可能是偶然的重名重名的概率是可以计算的,重名概率越小,就说明这两个平台上的相同昵称来自同一个人的可能性越大。比如说在一个医院的病历上看到“周涛”这个名字,又在通缉犯名单上看到“周涛”这个名字,那么很大可能只是两个重名的人。但是如果这两个名字是“西门吹雪”,那么很可能就是一个人。相关的学术论文可以参考J. Liu, F. Zhang, X. Song, Y. I. Song, C. Y. Lin, H. W. Hon, What's in a name?: an unsupervised approach to link users across communities, In Proceedings of the sixth ACM international conference on Web search and data mining(WSDM'2013),ACM Press,2013,pp.495-504。。比如我在科学网博客的账号是pb00011127,而在新浪微博的账号是super00011127,但凡包含00011127这个号码的,很有可能是和我相关的账号,因为这个号码比较独特。利用这种方法,可以通过公开爬取的昵称打通不同平台上的一部分数据。

没有什么普适化的方法能够一下子打通所有数据,所以,挖掘数据的关联和储备海量数据一样,也是一个由少而多逐步积累的过程。有趣的是,即便没有打通全部的数据,仅仅是一部分数据的打通也很有价值,它能够让我们了解经常上某某论坛的人有何种购物偏好,什么类型的社交关系对于什么类别的商品销售可以起到促进作用,等等。这些知识本身就可以应用到很多在线服务中,提高精确度。

刚才我讲的都是屌丝级别的打通手段,如果你足够富有,可以像阿里入股新浪、高德和多盟一样,直接通过资本运作的方式,把具有战略关联的数据方紧密结合起来——内部打通就太容易不过了。

数据与数据,1+1远大于2

与人和地点相似,针对一款游戏、一家中小企业、一个网站、一种产品,等等,都能够找到来自不同源头的数据,这些数据围绕一个个体关联起来,可以产生一加一远大于二的价值。进一步地,这些不同个体之间也能够产生关联,比如我们通过手机的GPS信号和签到信息,就能够知道哪些人去过哪些地方,从而把地点和人关联起来;通过销售记录能够知道哪些人购买过哪些产品,从而又把产品和人关联起来。这种不同个体之间的关联,以及针对同一个个体不同数据源之间的关联,将彻底改变以前我们熟悉的商业模式。

大数据创新实践

用购买记录给用户画像

通过用户在电子商务网站和资讯媒体上浏览、收藏和购买的记录,我们能够知道一个用户的住家或者工作的地点(通过包裹的寄达地),从而能够评估他住家或工作地点的经济水平以及搬迁频繁程度(是否经常更换本人收包裹的地点),以及他的购买偏好和价格水平。通过这个用户在社交媒体的种种行为,我们能够估计他的社会影响力。这些信息可以成为银行在发放信用卡和批准个人信贷时的重要参考。刚才的社交媒体行为中如果有足够多的文本信息(原创博文、评论、回复,等等),还可以用来判断一个人有没有抑郁症倾向、是否喜欢合作和沟通、是一个“大愤青”还是“大奋青”,等等。利用一个人的手机和签到行为,可以判断一个人主要的地理活动区域。这些信息结合这个人的简历,可以很大程度上帮助人力资源部门在招聘的时候做出快速准确的决定。通过分析一个产品的客户以及在互联网上提到过该产品的所有可能感兴趣的用户(条件许可的情况下,还可以分析竞争产品的潜在用户),再结合手机和签到数据,就可以得到感兴趣用户的地理分布,从而指导更精准的地面广告投放;结合互联网网页浏览数据,就可以得到感兴趣用户主要登陆的网站,从而指导更精准的互联网广告投放;结合人口统计学数据,就可以得到感兴趣用户的画像,包括年龄、职业、性别,等等,从而指导更好的产品设计和市场策略……

如果有些读者足够无聊而又有足够多的数据,你们应该能够在互联网和微博上搜索到本书的出版商——湛庐文化最近几年举办的活动,然后利用百度地图的接口,你们就能知道这些地方的经纬度范围。如果你有了运营商或者移动互联网广告平台的数据(后者比较容易获得),就可以从数亿智能手机用户中挖掘出参加湛庐文化的活动特别特别多的几个人(显然,他们应该是湛庐文化的工作人员),然后你会发现这几个人的工作地点是在我开头提到的“中关村云基地”。这个时候,你就基本可以确定,湛庐文化的所在地是在“中关村云基地”。这个办法很笨,因为你百度一下就能知道这个信息,不过它描述了一种蜿蜒曲折获得更多信息的可能的道路,这条道路连接了很多坐落在各地的数据村落,它们已经不再是孤岛!

另外,如果你继续努力积累数据,进行分析,你会发现刚才我说的那些数据地理分布的模式发生了重要的变化,这实际上是因为湛庐文化已经搬到了一个新的地址。如果你是一个关心湛庐文化并且拥有无穷数据资源的人,你就可以比所有信息更新更快地发现这个变化。

上面的例子听起来似乎还只是设想,但是我想特别强调的是,这些都是完全可以实现的案例,而且已经实现了。本文的后面会以很多商业实践的详细案例,向大家展示一加一之后产生的可观甚至可怕的效果。

再大的数据集,再丰富的数据形态,如果以孤岛的形态存在,闭关自守,不和外面的世界沟通,那都不能叫作大数据!就好像在工业时代,一个闭关锁国的国家,例如慈禧统治下的中国,实在很难叫作一个“大国”,虽然它面积足够大,人口足够多。类似地,电信运营商、金融机构,等等,都掌握了大量有价值的数据,如果它们总是以数据隐私、安全等借口拒绝任何形式的数据开放共享(读读清政府的公文,你会发现,借口永远俯拾皆是)那么死守孤岛的后果就是既拖累大家,又葬送自己。在技术革命的巨轮下,一个巨头的死亡很可能比大家估计的还快,只要想象一下从黄花岗的第一枪到溥仪下诏退位,时间短得吓死你!反过来,一个小国家如果开放,在新时代崛起并建立统治地位,也未尝不可能。总结起来,我认为大数据是基于多源异构、跨域关联的海量数据分析所产生的决策流程、商业模式、科学范式、教育理念、生活方式和观念形态上的颠覆性变化的总和。它绝不仅仅是某些特定技术和需求的变化,而是代表一种新的理念。在本书接下来的内容中,我将尽力展现大数据对于商业创新在理念和实践方面的革命性影响。未来若有机会,再给大家介绍大数据在科学、教育、决策、生活和思想等方面的影响。

加入“庐客汇”与爱读书的人相遇

扫码关注“庐客汇”,回复“为数据而生”,直达周涛教授精彩视频,了解更多有关大数据的创新与实践。