为数据而生:大数据创新实践
上QQ阅读APP看书,第一时间看更新

岁的时候,我搬到成都玉林小区无线电七厂的住宅区,一住就是二十多年,直到现在还时不时回去。住宅区旁边有一个花园,两千多平方米的面积,很小的一块绿地。不过,那时候还没有那么多麻将桌贴在它脸上,因此草木更葱郁,虫蚁也更繁忙。在街头电子游戏机还没有风行的时候,这湾小园承载了我童年大部分流连的身影。

在我算不上合群的童年生活中,有一件事情让身边的小伙伴们都惊呆了。花园里面种着一种树,似乎是柏树,但又有些不像。树只有四五米高,挂着一身一簇簇并在一起的叶子,到了冬天,大约一半还绿着,另外一半会失水变成深褐色。大概是小学三四年级的样子,那时候我每天中午都会从学校回来,在花园边上的“育苗食堂”吃午饭,然后回家午睡。有天中午刚吃过饭,不知道自己当时是怎么想的,我拿出一盒火柴去点那树的叶子。火借风势,如大鹏展翅,扶摇直上,也就十几秒钟的光景,把整棵树都点着了。四五米高的火焰跳跃在我面前,所有黄色的叶子都变成了火,而绿色的部分还依然绿着,只是“噼噼啪啪”失水呻吟。我不知道大江健三郎先生有没有亲历过类似的场面,我当时仰望这燃烧的绿树,俨然有一种宗教般的崇高与沉醉,现在想想,不过是渺小和畏惧的变体罢了。

在我的记忆中,点火烧树这件事情在我们小区广为流传,很长的一段时间里都让我风光不已。遗憾的是,我没有办法将彼时彼刻确切而生动的画面分享给我现在的朋友,更让我失望的是,最近和当年同一个院子里面长大的伙伴们说到此事,他们竟然已经完全没有印象了。至于亲长记忆中我的成长轶事:妈妈说我这辈子说的第一个词是“嘎嘎”,在四川话中是肉的意思,可见天生吃货;五舅妈说我小时候特别调皮,一溜烟跑过自由市场,要把所有豆腐摊子上面的豆腐都戳一个小洞,害得卖豆腐的远远看见我就要把豆腐盖上……这些有趣的故事,在我的记忆中是一点儿影子都没有了。

刚刚搬到玉林小区的时候,单位宿舍楼的外面就是一条小河,河对面是大片的农田。有时候,趁着爸爸妈妈不在,我们一群小屁孩儿取出藏好的“棍棒刀枪”,就到河对面去“远足探险”,往往因为带回来玉米、青蛙等成果,而被爸爸妈妈发现、教育。后来我们学聪明了,在河边整理了一小块空地,搬几块砖垒一个简单的灶,搞些树枝废纸点燃,把这些就地取材的东西加上从家里偷的土豆、红薯和各色调料,当场烧烤吃掉。现在想起来,其实爸爸妈妈应该是早就知道了,不然谁会经常到家里偷走土豆红薯,然后又一脸煤灰地回来。不说破,是因为不忍破坏我们的开心。

现在,我们的房子紧贴着一环路,算是城市中心的中心了。小河变成了马路,河对面的那块空地变成了交通银行一个很大的营业厅。好几次我和朋友路过此处,讲起以前童年的故事,都难以把营业厅里面取号等候的人群和“昨天”蹲在灶火边上等着红薯变熟的那群孩子联系在一起。有时候我自己都无法相信,今天这个被钢铁和金钱武装到了牙齿的伟大城市,曾经不过是绿水乡村柔软的延伸。

以前看法国作家帕特里克·莫迪亚诺(Patrick Modiano)的中篇小说《青春咖啡馆》,其中有一名外号叫“船长”的人,在一个红色塑料封皮的笔记本上,记录了三年来光顾孔岱咖啡馆的每一位客人进来时的确切日期和时刻,一共记满了190页。我一直以为这只是一种小说家的夸张手法,却不知道借助现代的技术,我身边的朋友做得比“船长”还要细致。

前几个月,我去拜访一个朋友,他家里有一个一岁四个月的小女孩儿,很可爱。在孩子房间的一角有一个很小的摄像头,视野覆盖了房间里大部分的空间,小孩子在这个房间里面绝大部分的活动都被这个摄像头记录下来了。朋友告诉我,这个摄像头一天记录的视频压缩存储,也就2 GB左右的数据量,他们把每天的视频做成一个文件,小孩子从出生到一岁的所有记录,用一个移动硬盘就能全部存储下来了。孩子的母亲兴冲冲地把硬盘接上电脑,给我看小孩子满百天的样子、第一次摇摇晃晃站起来的样子、“抓周”时候纠结犹豫的样子……

对于爸爸妈妈而言,这些记录无疑是有用的,在他们年轻的时候,不会错过小孩子成长中每一个重大的飞跃;当他们慢慢老去,孩子也离开自己身边出去闯荡的时候,他们随时可以重温曾经的快乐温馨。

对于孩子而言,我不知道拥有这种记录到底是幸运抑或不幸。幸运的是,他们永远都不会在记忆的泥沼中迷失,因为有“标准答案”可以随时查证。不幸的是,他们失去了在记忆中重塑自己过去的机会:童年变成数据,定格在硬盘中,既不可能变得更好,也不可能变得更坏!

我读《神雕侠侣》不下十遍,前前后后,自己心目中小龙女这个人物的相貌和性情变化很大,既有自身感情离合的原因,也有彼时彼刻不同心境的原因。后来看了热播的电视剧,再想起小龙女这个角色,脑海里一定出现李若彤的形象,想赶也赶不走。

所以说,记忆中的童年是缤纷梦幻的,数据中的童年是不容置疑的,前者属于自己,后者属于大家。不仅属于大家,还抢走了原来属于自己的!

主动或被动,我们都是数据贡献者

不管我们心中是否还带着对旧时代的眷恋和对新时代的惶恐,一个“一切都被记录,一切都被分析”的数据化时代的到来,是不可抗拒的。亲爱的朋友,如果你希望像纸版的《新闻周刊》一样,用血肉之躯抵挡互联网的巨轮,又或者学习张勋,重新蓄起辫子,向着过去狂奔,那我只能为你奏一曲挽歌。

人类是数据化舞台上当仁不让的绝对主角!

首先,我们自己主动贡献了大量的数据。

想想艾伯特-拉斯洛·巴拉巴西(Albert-László Barabási)全球复杂网络研究权威,无尺度网络理论理论的创立者。其经典著作《爆发》《链接》已由湛庐文化策划,分别由中国人民大学出版社、浙江人民出版社出版。——编者注在他的著作《爆发》中介绍的三个例子:艺术家哈桑·伊拉希因为不满安全局对他的监视,干脆自己主动在网站www.trackingtransience.net上面记录了他所有到过地方的位置和数万张他所到之处的照片和场景;微软研究院的戈登·贝尔(Gordon Bell)十多年来一直随身携带一个能够自动拍下他眼前每个人照片的数码相机,以及一个能够随意捕捉身边大范围内的各种声响的录音机;麻省理工学院媒体实验室的德布·罗伊在家里安装了11个摄像头和14个麦克风,记录了数十万小时的音像资料。

看起来这些只是极端的个例,实际上,我们在主动贡献数据方面和他们没有多大的区别。我们去淘宝买东西、从网上下载各种软件和游戏、到医院刷卡看病、预订机票和火车票、在网络上发表博文、通过QQ聊天、去大众点评赞美成都火锅、去社区银行办理金融业务、到ATM机取款、向杂志投稿、给糗事百科写笑话、成为某会所的高级会员、到4S店维护汽车、在微信上摇朋友、去酒店开房入住……我们刷各种各样的卡、读取各种各样的证件、在线上写各种各样的东西、在线下填各种各样的表格,等等,都是一次次主动向不同的系统提供数据。

其次,在我们不知情或者意识不到的时候,很多数据已经被记录下来——我们也是数据被动的贡献者。

在浏览网页的时候,浏览器自身以及各种插件和Cookie都会记录你所访问过的网页以及你在这些网页上的点击。所以,当你打开自己儿子电脑的浏览器,发现推荐的网页都是色情的,千万不要投诉浏览器的开发团队。

在你搜索的时候,搜索引擎会记录你的搜索关键词以及在搜索结果中的点击行为,事实上像百度这样的企业,能够准确地判断出绝大多数电脑面前坐着的到底是男是女,也知道此人是资深屌丝还是高富帅。在你走路的时候,公安局的天网系统会记录下你的视频,如果你不相信的话,到火车站这类防盗抢的要地,贼眉鼠眼地来回走上一段时间,没准儿就有便衣来找你了。

在你打开手机之后——如果你用的是智能手机——你的位置和运动、安装和激活的应用、展示和点击的广告都会被记录下来;在你驱动汽车之后——如果你开的是一部好车——你的所有操作:油门、刹车、方向盘、离合器、挡位调整,等等,都会被主控电脑记录下来;在你打开电视之后——如果你用的是智能电视——你在遥控器上的所有操作以及你正在观看的电视节目都会被记录下来。

一切都被记录,一切都被分析

除了人类自身,动物、植物和大自然也为我们贡献了可观的数据。我们在很多动物身上装上便携式的定位器或传感器,记录它们迁徙、狩猎的运动轨迹和环境特征;我们利用外太空的巨型天文望远镜和地表观测站的望远镜阵列来记录宇宙中曾经发生和正在发生的事情;我们整合温度、湿度、颗粒物、特定化学成分的探测设备,记录空气的质量;我们在主要河道的两边建设大量监测点,实时记录水位、流量、流速和水质。

政府、企业、科研机构、环保团体等共同构筑了一个巨大的棱镜。这个棱镜的一方是万生纷沓的数据,另一方是被肢解后等待分析的各色数据。不仅万物自身在其中,它们的行为、变化和关联也被忠实地记录下来。数据采集从静态变为动态,从记物扩展到载事,数据量也指数级地爆炸增长。

中国的运营商每天要记录50亿通电话,一家大型连锁超市每天的消费记录达到6 000万条,百度每天要处理超过10亿次的访问请求,而Facebook一个月仅照片就会更新10亿张。根据IBM最近的估计,我们每天新产生的数据量达到2.5×1018字节。这个数字有多大呢?如果一个汉字占据2个字节,把它写在一张纸上需要1平方厘米,那么我们每3秒产生的数据,若是打印出来,可以把钓鱼岛严严实实地覆盖1 000次。

四大方面,让数据指数级增长

在可以想见的不远的将来,数据量的爆炸性增长还将继续。这些增长的数据,在很大程度上有赖于四个方面的发展。

第一,通过愈来愈强基于智能终端的通信,个人行为的数据将被深度采集。其中既包括桌面电脑和智能手机这种已经普及的终端形态,还包括各种智能家电和智能汽车,以及未来可以从我们的手表、手机和眼镜中投射到玻璃上甚至空气中的全息互动屏幕。

第二,针对人体生理信号和生物信息的采集,将产生巨量的新增数据。未来的健康保障机构,将通过存储和分析个人的基因信息,为不同个体提供量身定做的个性化医疗方案。当你的某些器官,甚至大脑的某些特定区域出现不可逆转的病变时,通过3D全息技术,可以用人工培养甚至3D打印的器官完成移植手术,还可以通过脑机接口(brain-computer interface,BCI)脑机接口时代即将到来!想了解更多有关“脑机接口”的未来,请关注巴西科学家米格尔·尼科莱利斯(Miguel A. Nicolelis)的经典著作《脑机穿越》,由湛庐文化策划,浙江人民出版社出版。——编者注和微芯片的植入,激活甚至增强你的大脑中的某些功能。更可观的是,通过某些非干预的随身设备,包括项链、手环、眼镜、耳塞、戒指,等等,我们可以实时采集你的生理信号,包括心跳、血压、血糖等基本信号,以及睡眠状况、新陈代谢水平等综合指数,这些数据被传到云端的服务器,通过分析计算,实时监控和管理你的个人健康。

第三,通过无处不在的各种传感器,大自然中发生的点滴变化都会事无巨细地被翻译成数据。传感器的发展正在经历几十年前发生在电子计算机上的一幕——它们变得更加小巧,更加便宜,同时却更加精确,拥有更强大的通信能力。越来越多的传感器被投放到大自然中,监察江河湖泊中的氮磷含量、土地的盐碱化程度、空气中的可入肺颗粒物(PM2.5)的数量……除了对环境的常态分析之外,很多传感器还将服务于对自然灾害的预警,包括森林火灾、地震、火山爆发,等等。未来,以传感器为代表的小型设备所采集的数据,以及这些设备之间通信产生的数据,将成为新增数据的主要构成。

第四,大型的科学研究将产生巨量的数据。欧洲核子研究组织在瑞士日内瓦建设了人类历史上最大规模的粒子对撞机,它每秒能够产生40 TB的实验数据,相当于40 000部高清电影。正是通过对这些数据的分析,我们找到了一篇在50年前并不起眼的论文,在这篇论文的最后,相当隐晦地提到了一个有质量且自旋为0的玻色子Higgs本人1964年的文章是P. W. Higgs, Broken symmetries and the masses of gauge bosons. Physical Review Letters 13(1964)508。几乎在同一时间,Englert和Brout得到了几乎一样的结果,请参考F. Englert, R. Brout, Broken symmetry and the mass of gauge vector mesons, Physical Review Letters 13(1964)321。,从而,人类比历史上任何时期都更接近创造世界的神的本质。

数据化本身,或许还走在数据挖掘和分析之前,将成为未来十年极其可观的一个大产业方向。据互联网数据中心(Internet Data Center,IDC)预测,到2020年,全球将有300亿具有互联互通功能的智能终端,这些终端将成为更多数据的来源。仅这一项就将带来高达8.9万亿美元的收入预期。中国将在数据化产业中扮演关键角色,预计到2030年,一个中国的家庭平均会拥有40~50个智能传感器,这些传感器每年将产生200 TB的数据。

将来总会有一天,我们的大脑活动会被记录分析,我们的身体姿态和微表情也会被记录分析。

我们因为微微出汗而改变的皮肤湿度和导电能力会出卖我们内心的紧张,我们身体的微微颤动会出卖我们灵魂的悸动。如果需要,我们在表白之前就能够预测到被拒绝的概率,我们还能够自动知道我们的伴侣最需要的礼物——通过对他/她在各处留下的数据轨迹的深入分析。如果需要,我们可以建立一座直达天堂的巴别塔巴别塔,又称巴贝塔、巴比伦塔、通天塔。宗教传说中人类意图建造的通天高塔,出自《圣经·旧约·创世记》。——编者注,因为文化和文化、语言和语言之间都可以互相翻译。在一个由数据、计算和模型统治的世界里,文化多样性将丧失赖以存在的立足点。那个时候,我们或许不会再犯巨大的错误,因为错误的决定在出现之前就已经被数据和计算所否定。那个时候,我们或许也不会承受巨大的痛苦,因为我们与伴侣性格是否匹配、有多大的可能性能够白头偕老,都是可以计算并且排序的,所以我们在恋爱中遇到挫折、在婚姻中遭受背叛的可能性都会很低很低。

唯一幸运的是,我,以及看到这本书的每一位读者,在这一天到来之前,都已经去世了。