决战大数据(升级版):大数据的关键思考
上QQ阅读APP看书,第一时间看更新

icon2

人说,大数据就像国王的新衣,每个人都在国王面前说着动听的话,国王信以为真,其实他并不知道自己在裸奔。

的确,网络上有很多人在谈大数据,但是他们只会谈,不会做,因为他们根本就没有做过,包括那些所谓的“大数据专家”,他们真的做过吗?没有。事实上,这些人对大数据内在的问题一点儿都不了解,更别说知道大数据的水有多深了。

目前,在大数据方面,无法深入应用的原因在于,从收集到使用的大数据价值链出现了问题。从理论上来说,从收到用的螺旋式循环是一个巨大的涡轮,只有先数据化运营,然后才能运营数据。而现在的情况是,用数据的人不知道大数据从哪里来,做数据的人不知道大数据如何使用。想用的人不敢用,因为担心大数据的真实性;做的人不知道怎么用,因为大数据的复杂性。这一问题造成的结果就是,数据量变得越来越大,而且越来越无法有效地使用。

大数据从来不是免费的午餐

大数据从来不是免费的午餐。大数据的来源是多渠道的,偏倚、随机的误差总是存在。

我先问一个数据管理上最现实的问题:“大数据如何备份?”毫不夸张地说,大数据已经这么庞大了,如果再备份一次,你的成本起码会增加一倍。

做大数据基本上都要从大量收集数据开始,因为这些数据在未来会大有用处。但是,你是不可能无止境地收集下去的。在这里,你已经看到了一个再清晰不过的伪命题:大数据的确能够备份,但是成本会增加两三倍。然而,“以前重要的数据肯定都需要备份啊,”你自然会问,“如果不能备份,我该怎么办?”而这就是大数据管理中必然会遇到的一个问题。

我再问一个问题,如果你在数据使用方面一直得心应手,整个商业链条和数据紧密相关、相辅相成。但是,现在数据链忽然断了,或者不再有效了,此时你该怎么办?

需要注意的是,这一问题说的不是你有没有使用好数据,而是说曾经你可以得到的数据现在无从获得了;或者说这些数据不能再在线上收集,只能从线下获取,成本也就相应升高了;抑或说,这些数据存储在其他地方,你不能使用了。在诸如此类的情况下,你该怎么办?

当然,如果你对数据的使用本来就很生疏,而且也觉得无关紧要,那么数据链消失了、断裂了、失效了,你也不会有太大烦恼。但假如正当你将数据使用得风生水起的时候,出现这样的问题,那你也只能束手无策,眼睁睁地看着机会溜走。

大数据从来不是免费的午餐。伴随着大数据热潮的到来,关于大数据的一些新问题层出不穷——大数据会夹杂着虚假信息;大数据的数据量很大,但有用的信息不一定多,甚至还会破坏核心信息;大数据的来源是多渠道的,偏倚、随机的误差总是存在。

但是,我们也需要客观地认识到,大数据现在面临的这些问题,其实就是把小数据中的一些问题放大了。小数据中难道就没有噪音会破坏我们的核心信息吗?当然也有,只不过当大数据把数据量放大和变多的时候,噪音的破坏性也会相应变大。小数据中难道就没有渠道偏倚和随机的问题吗?当然也有,但是在大数据的背景下,问题被更明显地放大了。

人的断层

断层才是大数据所面临的最严重的问题。收集数据的人并不清楚未来使用数据的人要做什么,这是目前大数据运用的一大关键命门。

说了这么多,事实上还没有触碰到如今大数据面临的最大问题:人。

很多人都会问,大数据能带来什么价值?怎么衡量大数据创造的价值?事实上,最直接的衡量标准就是,在经营上它为你赚了多少钱,带来了多少实际的利润提升。

对于这一问题的解决,现在很多人倾向使用的方法是计算“在用了大数据之后,点击率提高了多少,转化率提高了多少”。但是要知道,转化率和点击率能提高的数据,可能根本不是投资人或公司最高管理者对大数据的期望。对于业务人员来说,转化率能提升5个百分点就已经非常好了,如果将转化率从2%提高到3%,简直就是奇迹了;但对于公司最高管理者来说,这并不是他想要的大数据。

你需要认识到,断层才是大数据所面临的最严重的问题。收集数据的人并不清楚未来使用数据的人要做什么,这是目前大数据运用的一大关键命门。

在使用大数据时,我们通常的做法是先把数据收集起来,因为我们知道在未来的某一时刻,这些数据对我们可能有用。不过,“未来可能有用”就注定会引发一个问题:收集数据的人不知道未来使用数据的人要做什么。这时候,如果你再问收集数据的人“如何才能更好地收集数据”,那么,数据的使用就会陷入一个死循环。

事实上,不仅是收集数据的人,就连使用数据建模的人,同样也不清楚当前的数据是如何获得的。数据建模是数据使用的关键环节,使用数据建模,就是根据以往的经验从中寻找到一些潜在的规则,然后把这些规则结合起来去解决问题。

举个例子来说,我现在身上只有10元钱,我可以用它买一本杂志,也可以用它坐几次公交车,或者可以用它来买方便面充饥,这三种选择在一般情况下都是可行的。但是,如果再加上一个“我没有吃早餐”的场景时,在以上三种可能性中,我选择去吃方便面的概率自然会比较大。这其实就是一个简单的模型——输入“拥有10元钱”和“没有吃早餐,肚子饿”这两个场景,输出“买方便面”这个结论,它帮助我们快速选择了一条解决之路。

选择“吃方便面”的这个场景虽然看上去很简单,但同样是一个经验的总结,这个经验就是“肚子饿了要吃饭”。把建模这个过程说得更加复杂或者专业一点,就是基于很多以往的经验,进行总结,或者是对旧有数据使用规则的发现,将经验和数据相结合,最后输出一个可以被套用的业务规则。

不过,此时使用数据建模的人并不一定完全清楚数据是如何产生的,这是一个客观存在的难题。因为就大数据研究来讲,我们很多时候使用的都是他人的数据,既然是他人的数据,你又怎么能够保证自己会完全弄清楚它们呢?

现在,在运用大数据时流行一个例子,比如我在搜索引擎里发现某个地方搜索“感冒药”的频率非常高,于是,我就断定这个地方可能出现了流行性感冒。而这个数据源是从何而来的?我虽然知道很多人搜索了“感冒药”这一词语,但是却完全不知道在搜索引擎里搜索这个词语的人到底是谁。而提供数据的人既没有责任要告诉我数据是怎么来的,也不必告诉我数据的质量如何,更不必告诉我数据到底会不会有偏差。这样的结果推及到大数据领域就是,研究数据的人完全不清楚数据是怎么来的。

模型数据从何而来

创建模型的人不知道自己所采用的数据在未来是否稳定,使用模型的人不知道整个数据的来路或加工过程。

当使用模型的人不知道模型数据从何而来时,其使用角度就要发生改变,具体来说就是视场景而定。比如说,今天你要来杭州的淘宝城,有人告诉你“今天你应该从文一西路过来”。你问原因,他回答说:“因为模型是这样提供路线的。”他不会跟你解释,就说模型是这样的,因为下午2点钟到4点钟,从文一西路过来比较快。这个例子就是模型使用的一个场景,选择文一路则是模型的一个输出。那么,你要不要走其他的路?走文二路或者文三路?可是,这种选择的结果就是未知的了。

模型对于很多人来说是一个黑匣子,充满神秘性和未知性。所以,即便是模型创建者将模型公开,也会因为创建者和使用者专业能力和知识背景的不同,使两者之间出现信息不对称的情况,使用者自然也就不知道为什么会选用此种解决方法。也就是说,创建模型的人可能不知道此种模型效果好不好,而使用模型的人也不知道该怎么去反馈使用的结果。这样一来,这种信息不对称会越来越严重。

这一问题恰恰体现了大数据实践中非常严重的断层问题:收集数据的人不知道将来的人怎么使用数据,创建模型的人不知道自己所采用的数据在未来是否稳定,使用模型的人不知道整个数据的来路或加工过程。这些都是普遍存在且很现实的问题。

从公司管理层的角度来看,投资人了解数据的意义是什么?高层管理者对数据的期望和中层管理者之间又有什么不同?他们知道数据能帮助企业做什么吗?这些问题的答案完全会因立场不同而异。

中层管理者大都不知道数据能帮助他们做什么,他们没有管理者的视野,相比之下,你只需要告诉他们数据能解决什么问题即可。相反,数据分析师可能就会更加困惑不解:“我做了这么多东西,为什么你们不用?”

每个层级和功能部门都是一个断层,而且对数据价值的内在衡量都不一样。所以,当我们讲到数据价值时,没有人能对此给出一个合理的定位,原因就在于有几个关键问题没有区分清楚。一是要明确这是谁心里的数据价值,投资人、高层管理者、中层管理者、数据分析师各自心中对数据的价值自然不同;二是要明确数据的分类,不同类型的数据所产生的价值各不相同。为什么我们在大数据应用方面存在障碍?一个重要的原因在于,应用人员对于数据价值和数据分类没有明显的界定。对于这个话题的探讨,我们会在随后的章节中重点讲述。

更主动的管理,更多的创新

这是一个“从用数据到养数据”的过程,一个“从数据化运营到运营数据”的过程,也是一个“从看到真用”的过程。

在当下的大数据环境里,数据其实与商业模式密不可分,每个人都认识到它的经济价值是巨大的,但今日的大数据发展趋势之快,对于很多公司来说,变得更加虚无缥缈,难以把控,让每个人抓狂,让每个人手足无措。

而在这一方面,阿里巴巴已经对数据化运营做了不少有益的尝试。淘宝一直致力于一件事:用数据来帮助企业运营和解决问题。但在不断使用数据的同时,也发现了数据本身的问题——大数据需要更主动的管理,也需要更多的创新。

数据化运营就是用数据去解决问题,但是如果我们想把数据做得更好,解决更多新的问题,就需要去做一件以前未曾做过的新事情——运营数据。对于阿里巴巴来说,这件事情是从2011年才有计划地进行的,企业主动收集数据,并且以此去创造更优质的新数据,让新数据更好地服务于企业的运营。这是一个“从用数据到养数据”的过程,一个“从数据化运营到运营数据”的过程,也是一个“从看到真用”的过程。

从数据化运营到运营数据是一个闭环,今天的电商企业正走到了其中的一个节点上。在经历了起初大数据的喧嚣之后,大家终于感受到,要使大数据产生真正的商业价值,我们要关注的内容并非4V4V,是大数据的经典定义,包括海量的数据规模(Volume)、快速的数据流转和动态的数据体系(Velocity)、多样的数据类型(Variety)和巨大的数据价值(Value)。——编者注那么简单,而应该将焦点放在如何真正让数据落地之上,即从数据化运营到商业管理能力的提升。