大概三五年前,我们还在为移动化兴奋不已;而今天,我们已经开始面对全域大数据、面对来自四面八方的传感器。大数据已经完全不是“移动化”这么简单了。
数据,决策的瞄准镜
随着无处不在的终端及应用所收集的数据越来越多,将来有一天,无论你去哪儿,都会留下“脚印”。全域大数据带来的变革不限于数据本身,而是从全新的角度去思考社会和商业模式将如何被改变。
在移动化的初始阶段,我们觉得手机是一个结合了媒体、沟通、互联应用的超级终端传感器。渐渐地我们发现,离开手机一会儿就觉得不自在,而从数据收集的角度来说也出现了一个新挑战:PC端和手机移动端这两个终端上出现的是否为同一个人?这个现象引发的问题在未来会变得更明显。在未来,除了用手机,智能电视、智能家居、物联网汽车……我们将和所有的东西实现联结和互动,已经不存在一个能完全满足我们需求的终端。随着无处不在的终端及应用所收集的数据越来越多,将来有一天,无论你去哪儿,都会留下“脚印”。我们接收到的数据会越来越全——这是令人兴奋的消息,但从伦理道德的角度来看,却可能是很危险的。
我们应该清楚地认识到,商业的基础正是因为众多终端(包括物联网)所带来的全域大数据而发生了改变。全域大数据带来的变革不限于数据本身,而是从全新的角度去思考社会和商业模式将如何被改变。在全域大数据的大潮之下,每家公司都要学会重新思考。当互联网的场景从单一的桌面转移到多源多终端,形成每时每刻的全域数据时,不仅带来了丰富的空间维度,还增加了更多从前匪夷所思的新场景所产生的数据。这么多零散数据和维度叠加在一起,那么接下来的难题就是:如何保证数据能有效地被存储、刷新、识辨和链接,然后灵活地被使用?
有这么多的数据能做什么?从古至今,每当人们遇到麻烦和困难时,都会从自己或别人的经验中寻找解决办法,然后决策执行。不论成功或失败,所得到的经验和积累会成为衡量下一个类同决策的基础。这样的决策循环往复,使我们的预测能力越来越接近真实,而数据就像是我们这个循环之中的瞄准镜一样。
开启“上帝视角”,做到知觉合一
知是Sensing,觉是Knowing,知是觉的基础,新知新觉!
以前,当一些结果不在我们的预期判断之中时,我们就会明白,原因是我们知道的信息不全。但这种现象在未来会越来越少,因为全域大数据会让我们更“见多识广”。
数据分析实例
你每天开车回公司的途中到了某个路口习惯性左拐是最快捷的选择,但偶然有一天你发现,很多同事都在同一路口右拐。好奇心让你询问了多位同事,最后才发现原来有一条路比你原来的左拐选择更加便捷。在这个例子中,你有沒有注意到,个人智慧与集体智慧的融合体现得淋漓尽致,同时也暴露出过去我们获取信息的意愿或方法的条件的不充分。
再举例一个购物的场景。顾客A在朋友的推荐下搜索某品牌护肤品,被引导去了社交网站并了解到产品的品碑不错,接着去品牌官网查询商品价格,但嫌价格太贵;然后去了B2C网站,可是又觉得物流太慢;顾客A还未下定决心购买时,又到了下班时间;于是,当顾客A偶然路过专卖店时,才最终产生了购买行为。这是个常见的购物过程,我们可以理解顾客A想要购买一个产品经历的诸多流程。如果现在把你放在B2C网站负责人的位置上,你发现顾客A浏览了你的网站,但你并不知道她其实已经经历了前面的种种流程,更不知道之后的情况,所以你获得的只是一个很片面的数据。如果你是这款化妆品专卖店的负责人,也不要太过高兴,你不过是比B2C的负责人好运一点儿。顾客每天都在和你擦肩而过,你要有多少运气才够用啊。
在以上例子中,单独了解每个环节的数据可能结果都是片面的,但如果每个环节的数据都可以打通的话,你就会开启“上帝视角”,发现一个“完整的故事”——只不过今天还没有人能够做到数据完整。理想的状况是,我们能够像蜘蛛网一样把数据深入到各个环节,这样才可以即时响应很多用户的想法。这种多场景、多终端、多应用的全域大数据将会是一个里程碑。
随着移动互联网时代的到来,不在预期之内的大数据不断地进入我们的视野,人类对周边环境的感知(sense)能力伴随着传感器数据的加强,开始发挥极大的作用。这些都造就了今天的人工智能的发展进入新纪元。明白了以上的前提后,我们就会更明白大数据整合和分享的重要性,以及不要唯利是图地胡乱买卖数据的重要性。
我们眼前的数据相对离散,终端和传感器(例如智能电视、智能家居、智能汽车等)的变化多端,这些都导致我们所讨论的全域大数据越来越像庞然大物:我们每秒钟收集的数据比前一秒更庞大,结构和标准也各不相同。例如,我们用的手机终端有苹果手机、安卓手机、黑莓手机等,而安卓系统下面还有小米、魅族、华为、三星等,不同型号的手机数据都会对数据的准确性产生影响。在我看来,开启“上帝视角”是未来趋势,上帝视角下的应用场景会越来越多地出现。对于我这样一个从事数据科学的人来说,这无疑是令人激动的。
这些数据都可以沉淀,复杂的数据环境给我们带来巨大挑战,但同时又伴随着前所未有的机遇。在机会面前,目前来说,我们还不够明智,还只是“各自为政”。
首先,每家公司、每个参与数据处理的“参赛者”,都想独自画出“数据链”路上的全景图。我就曾经看过同一家公司内各事业部都在做自己的软件开发工具包(SDK)来做数据收集,他们没有分工、也没有讨论标准化,所得数据之乱可想而知。
其次,我们忽略了数据一体性。如果我们现在不重视数据的一体性,之后想要利用好数据的时候,就会发现自己已经被这些微小数据牢牢卡住了。的确,当公司规模生态还很小时,你会觉得这些数据影响不大。传统上,我们对多元化、多终端异构数据的产生,以及数据的质量问题等,往往不够重视,但一旦我们想要实现突破,想精准地应用数据,就会发现曾经的“差一点儿”已经成了云泥之别。对数据使用的高手来说,数据质量就是生命之源。
知是Sensing,觉是Knowing,知是觉的基础,新知新觉!