更主动的管理，更多的创新_决战大数据（升级版）：大数据的关键思考-QQ阅读男生武侠网

上QQ阅读APP看书，第一时间看更新

icon2

有人说，大数据就像国王的新衣，每个人都在国王面前说着动听的话，国王信以为真，其实他并不知道自己在裸奔。

的确，网络上有很多人在谈大数据，但是他们只会谈，不会做，因为他们根本就没有做过，包括那些所谓的“大数据专家”，他们真的做过吗？没有。事实上，这些人对大数据内在的问题一点儿都不了解，更别说知道大数据的水有多深了。

目前，在大数据方面，无法深入应用的原因在于，从收集到使用的大数据价值链出现了问题。从理论上来说，从收到用的螺旋式循环是一个巨大的涡轮，只有先数据化运营，然后才能运营数据。而现在的情况是，用数据的人不知道大数据从哪里来，做数据的人不知道大数据如何使用。想用的人不敢用，因为担心大数据的真实性；做的人不知道怎么用，因为大数据的复杂性。这一问题造成的结果就是，数据量变得越来越大，而且越来越无法有效地使用。

大数据从来不是免费的午餐

大数据从来不是免费的午餐。大数据的来源是多渠道的，偏倚、随机的误差总是存在。

我先问一个数据管理上最现实的问题：“大数据如何备份？”毫不夸张地说，大数据已经这么庞大了，如果再备份一次，你的成本起码会增加一倍。

做大数据基本上都要从大量收集数据开始，因为这些数据在未来会大有用处。但是，你是不可能无止境地收集下去的。在这里，你已经看到了一个再清晰不过的伪命题：大数据的确能够备份，但是成本会增加两三倍。然而，“以前重要的数据肯定都需要备份啊，”你自然会问，“如果不能备份，我该怎么办？”而这就是大数据管理中必然会遇到的一个问题。

我再问一个问题，如果你在数据使用方面一直得心应手，整个商业链条和数据紧密相关、相辅相成。但是，现在数据链忽然断了，或者不再有效了，此时你该怎么办？

需要注意的是，这一问题说的不是你有没有使用好数据，而是说曾经你可以得到的数据现在无从获得了；或者说这些数据不能再在线上收集，只能从线下获取，成本也就相应升高了；抑或说，这些数据存储在其他地方，你不能使用了。在诸如此类的情况下，你该怎么办？

当然，如果你对数据的使用本来就很生疏，而且也觉得无关紧要，那么数据链消失了、断裂了、失效了，你也不会有太大烦恼。但假如正当你将数据使用得风生水起的时候，出现这样的问题，那你也只能束手无策，眼睁睁地看着机会溜走。

大数据从来不是免费的午餐。伴随着大数据热潮的到来，关于大数据的一些新问题层出不穷——大数据会夹杂着虚假信息；大数据的数据量很大，但有用的信息不一定多，甚至还会破坏核心信息；大数据的来源是多渠道的，偏倚、随机的误差总是存在。

但是，我们也需要客观地认识到，大数据现在面临的这些问题，其实就是把小数据中的一些问题放大了。小数据中难道就没有噪音会破坏我们的核心信息吗？当然也有，只不过当大数据把数据量放大和变多的时候，噪音的破坏性也会相应变大。小数据中难道就没有渠道偏倚和随机的问题吗？当然也有，但是在大数据的背景下，问题被更明显地放大了。

人的断层

断层才是大数据所面临的最严重的问题。收集数据的人并不清楚未来使用数据的人要做什么，这是目前大数据运用的一大关键命门。

说了这么多，事实上还没有触碰到如今大数据面临的最大问题：人。

很多人都会问，大数据能带来什么价值？怎么衡量大数据创造的价值？事实上，最直接的衡量标准就是，在经营上它为你赚了多少钱，带来了多少实际的利润提升。

对于这一问题的解决，现在很多人倾向使用的方法是计算“在用了大数据之后，点击率提高了多少，转化率提高了多少”。但是要知道，转化率和点击率能提高的数据，可能根本不是投资人或公司最高管理者对大数据的期望。对于业务人员来说，转化率能提升5个百分点就已经非常好了，如果将转化率从2%提高到3%，简直就是奇迹了；但对于公司最高管理者来说，这并不是他想要的大数据。

你需要认识到，断层才是大数据所面临的最严重的问题。收集数据的人并不清楚未来使用数据的人要做什么，这是目前大数据运用的一大关键命门。

在使用大数据时，我们通常的做法是先把数据收集起来，因为我们知道在未来的某一时刻，这些数据对我们可能有用。不过，“未来可能有用”就注定会引发一个问题：收集数据的人不知道未来使用数据的人要做什么。这时候，如果你再问收集数据的人“如何才能更好地收集数据”，那么，数据的使用就会陷入一个死循环。

事实上，不仅是收集数据的人，就连使用数据建模的人，同样也不清楚当前的数据是如何获得的。数据建模是数据使用的关键环节，使用数据建模，就是根据以往的经验从中寻找到一些潜在的规则，然后把这些规则结合起来去解决问题。

举个例子来说，我现在身上只有10元钱，我可以用它买一本杂志，也可以用它坐几次公交车，或者可以用它来买方便面充饥，这三种选择在一般情况下都是可行的。但是，如果再加上一个“我没有吃早餐”的场景时，在以上三种可能性中，我选择去吃方便面的概率自然会比较大。这其实就是一个简单的模型——输入“拥有10元钱”和“没有吃早餐，肚子饿”这两个场景，输出“买方便面”这个结论，它帮助我们快速选择了一条解决之路。

选择“吃方便面”的这个场景虽然看上去很简单，但同样是一个经验的总结，这个经验就是“肚子饿了要吃饭”。把建模这个过程说得更加复杂或者专业一点，就是基于很多以往的经验，进行总结，或者是对旧有数据使用规则的发现，将经验和数据相结合，最后输出一个可以被套用的业务规则。

不过，此时使用数据建模的人并不一定完全清楚数据是如何产生的，这是一个客观存在的难题。因为就大数据研究来讲，我们很多时候使用的都是他人的数据，既然是他人的数据，你又怎么能够保证自己会完全弄清楚它们呢？

现在，在运用大数据时流行一个例子，比如我在搜索引擎里发现某个地方搜索“感冒药”的频率非常高，于是，我就断定这个地方可能出现了流行性感冒。而这个数据源是从何而来的？我虽然知道很多人搜索了“感冒药”这一词语，但是却完全不知道在搜索引擎里搜索这个词语的人到底是谁。而提供数据的人既没有责任要告诉我数据是怎么来的，也不必告诉我数据的质量如何，更不必告诉我数据到底会不会有偏差。这样的结果推及到大数据领域就是，研究数据的人完全不清楚数据是怎么来的。

模型数据从何而来

创建模型的人不知道自己所采用的数据在未来是否稳定，使用模型的人不知道整个数据的来路或加工过程。

当使用模型的人不知道模型数据从何而来时，其使用角度就要发生改变，具体来说就是视场景而定。比如说，今天你要来杭州的淘宝城，有人告诉你“今天你应该从文一西路过来”。你问原因，他回答说：“因为模型是这样提供路线的。”他不会跟你解释，就说模型是这样的，因为下午2点钟到4点钟，从文一西路过来比较快。这个例子就是模型使用的一个场景，选择文一路则是模型的一个输出。那么，你要不要走其他的路？走文二路或者文三路？可是，这种选择的结果就是未知的了。

模型对于很多人来说是一个黑匣子，充满神秘性和未知性。所以，即便是模型创建者将模型公开，也会因为创建者和使用者专业能力和知识背景的不同，使两者之间出现信息不对称的情况，使用者自然也就不知道为什么会选用此种解决方法。也就是说，创建模型的人可能不知道此种模型效果好不好，而使用模型的人也不知道该怎么去反馈使用的结果。这样一来，这种信息不对称会越来越严重。

这一问题恰恰体现了大数据实践中非常严重的断层问题：收集数据的人不知道将来的人怎么使用数据，创建模型的人不知道自己所采用的数据在未来是否稳定，使用模型的人不知道整个数据的来路或加工过程。这些都是普遍存在且很现实的问题。

从公司管理层的角度来看，投资人了解数据的意义是什么？高层管理者对数据的期望和中层管理者之间又有什么不同？他们知道数据能帮助企业做什么吗？这些问题的答案完全会因立场不同而异。

中层管理者大都不知道数据能帮助他们做什么，他们没有管理者的视野，相比之下，你只需要告诉他们数据能解决什么问题即可。相反，数据分析师可能就会更加困惑不解：“我做了这么多东西，为什么你们不用？”

每个层级和功能部门都是一个断层，而且对数据价值的内在衡量都不一样。所以，当我们讲到数据价值时，没有人能对此给出一个合理的定位，原因就在于有几个关键问题没有区分清楚。一是要明确这是谁心里的数据价值，投资人、高层管理者、中层管理者、数据分析师各自心中对数据的价值自然不同；二是要明确数据的分类，不同类型的数据所产生的价值各不相同。为什么我们在大数据应用方面存在障碍？一个重要的原因在于，应用人员对于数据价值和数据分类没有明显的界定。对于这个话题的探讨，我们会在随后的章节中重点讲述。

更主动的管理，更多的创新

这是一个“从用数据到养数据”的过程，一个“从数据化运营到运营数据”的过程，也是一个“从看到真用”的过程。

在当下的大数据环境里，数据其实与商业模式密不可分，每个人都认识到它的经济价值是巨大的，但今日的大数据发展趋势之快，对于很多公司来说，变得更加虚无缥缈，难以把控，让每个人抓狂，让每个人手足无措。

而在这一方面，阿里巴巴已经对数据化运营做了不少有益的尝试。淘宝一直致力于一件事：用数据来帮助企业运营和解决问题。但在不断使用数据的同时，也发现了数据本身的问题——大数据需要更主动的管理，也需要更多的创新。

数据化运营就是用数据去解决问题，但是如果我们想把数据做得更好，解决更多新的问题，就需要去做一件以前未曾做过的新事情——运营数据。对于阿里巴巴来说，这件事情是从2011年才有计划地进行的，企业主动收集数据，并且以此去创造更优质的新数据，让新数据更好地服务于企业的运营。这是一个“从用数据到养数据”的过程，一个“从数据化运营到运营数据”的过程，也是一个“从看到真用”的过程。

从数据化运营到运营数据是一个闭环，今天的电商企业正走到了其中的一个节点上。在经历了起初大数据的喧嚣之后，大家终于感受到，要使大数据产生真正的商业价值，我们要关注的内容并非4V 4V，是大数据的经典定义，包括海量的数据规模（Volume）、快速的数据流转和动态的数据体系（Velocity）、多样的数据类型（Variety）和巨大的数据价值（Value）。——编者注那么简单，而应该将焦点放在如何真正让数据落地之上，即从数据化运营到商业管理能力的提升。