当我们身边的很多人都在兴奋地讨论大数据时,你有没有心存不解——虽然我们每天都在收集数据,但我们为什么要关注它们?这些数据又如何能够为我们所用?
的确,当回归到“数据能够帮助你产生什么价值”这个问题时,如果你自己都没弄清楚,那么就算给你再多的数据,你也只会手足无措。我们身边的大数据现象越来越普遍,数据的广度和深度都呈现出几何级甚至指数级增长的趋势。在思考数据的价值时,我认为,可以从三个维度来考虑。
首先,你能否清楚地识别(Identify)用户的身份?其次,你能否搞清楚所收集的数据对你的价值(Value)是什么?最后,收集数据时的场景(Situation)是什么?
识别,让似是而非的行为数据串联起来
企业有多大的能力去识别一个“碎片化了的个人”,将是一个巨大的考验和机会。
很多人都同时拥有手机、个人电脑 、平板电脑等多个数码设备。比如,某个人拥有两部手机、一台iPad、三张信用卡,这个人每天都登录你的网站。在这种情况下,你能不能知道这是同一个用户?你有没有这种识别能力呢?通过信用卡,银行虽然可以识别静态个人的身份,但缺少当事人使用电脑、手机或平板电脑等更广泛的网上浏览设备时的身份识别能力。
这时,有谁能够识别这三个设备和三张信用卡背后的用户都是一个人?而目前的企业有多大的能力去识别一个“碎片化了的个人”,将是一个巨大的考验和机会。
在识别过程中,分辨用户其实并非难事,比如,企业可以查看用户电脑里的cookies,依此获取用户的E-mail地址、网购时的收货地址,甚至私人手机号码、亲密联系人、信用卡与身份证信息,等等。以上这些信息都可以作为鉴别“碎片化了的个人”的依据。
需要注意的是,这些属性有些是唯一的,有些却不是,但它们依然有很大的参考价值。比如说,你经常会将手机借给别人使用吗?经常会将电脑借给别人使用吗?当然不会。那么信用卡呢?想必应该更不会外借了吧。
了解了身份识别的方式之后,我们就可以把散落于网站内外似是而非的行为数据串联起来。不同的网站,收集到的数据是不同的,数据的价值也千差万别。如果某个网站连接了你的三台设备和三张信用卡,那么这个网站收集到的内外数据就很容易将你识别出来。所以,是否知道用户是谁,决定了企业数据收集行为的意义大小。
价值,企业价值 VS.客户价值
从企业价值来看,数据收集实现的是企业资源的合理分配;从客户价值来看,数据收集实现的是顾客体验的提升。
数据收集的价值包含两个维度。一方面,你是否能衡量这个数据对企业产生的价值——你不必将用户的所有行为都记录下来,而是记录那些对企业自身有帮助的数据,即企业价值;另一方面,你是否能衡量这个数据对顾客的价值——这个数据如何帮助企业为客户提供更好的服务,即客户价值。
从企业价值来看,数据收集实现的是企业资源的合理分配。例如,把推荐系统做得更好,让更多的用户可以有更高的概率找到他们想要的商品。这样,就能提高商品的购买率,为企业创造更大的经济效益。
从客户价值来看,数据收集实现的是顾客体验的提升。例如,便捷的搜索引擎可以使顾客更容易地找到他们所需要的商品,为他们创造更加优质的购物体验。
数据提供的价值,从不同维度看会有不同的结果。比如说,每天下午两点钟左右,银行门口会有很多客户排起长龙。如果以客户价值为核心,那么思考的角度就应该是每个在下午两点钟去银行办业务的用户,平均到底需要多少分钟才会得到相应的服务。但是,银行的做法是对大量数据进行研究,目的是想得出在下午两点钟时如何减少排队的人数,这就是以企业价值为核心的考量。
以企业价值为核心去审视就是,如何帮助企业在下午两点钟时分流排队的人数;以客户价值为核心去审视则是,如何让客户减少等候的时间,并得到所需的服务。同样一件事情,这两者的提炼是不一样的:一是思考能否缩短在这家银行排队的时间,让客户提前两分钟享受服务;二是思考能否使用手机来解决排队问题,通过手机银行减少实体银行里的排队人数。
我的观点是,数据价值的确要分是从谁的角度出发的。所以,当我们谈大数据价值的时候,第一点要注意的就是:角色不一样,对于数据价值的看法也就不同,所以在衡量价值时要考虑到受众和给予者这两个对立面的不同看法。在上面银行的例子中,银行更多地是看到,在两点钟有20多位客户在排队,而受众哪里会对排队人数产生敏感啊,他们只会觉得若10分钟内没有得到服务,就是等了很久了。
从电子商务的角度来看,推荐系统的做法跟银行类似。现在,所有电子商务公司在考核推荐系统时,都是以点击率作为KPI的。
从企业考核推荐系统的角度来说,点击率是主要指标。它们想的是如何让用户更多地点击自己的产品,而对于消费者来说,却并非如此。用户想的是:“今天我有一个很想买的东西,我能不能买到呢?”
所以,在使用数据改善用户的购物体验时,企业应该是仅仅改善推荐系统,还是要了解用户整个购买决策的链条结构?可能的答案是,企业需要知道用户在登录网站之前的情况,而不是登录之后的情况,这就需要企业全面客观地去看自己的网站是不是有能力还原用户的需求了。
场景,你知道当时所有的场景吗
场景与还原并行——前端还原消费者场景,后端还原业务需求。
在准确识别和衡量了数据价值之后,我们再来看一下数据收集时的场景。现在,大数据的价值吸引了很多企业和组织的兴趣,因此它们非常重视自身的数据收集与存储。但是,在现实操作过程中,问题仍然层出不穷。大量的碎片化数据是噪音,让事实串联本身变得非常困难。而值得思考的另一方面是:当我们把这些枯燥的数据串联起来时,就一定能代表事实吗?
数据分析实例
早上,你在上班的路上看见有个男生穿了一件非常好看的T恤,你心动了。于是,你来到公司,坐在座位上的第一件事情就是在购物网站上搜索T恤。结果呢?出现了10万个相关商品。
当你正在犹豫怎么挑选时,老板突然在办公室里宣布要开集体会议。你坐在会议室里,发现开会好无聊,于是打开了手机应用,继续想怎么买到那款T恤,然后你筛选了一些比较中意的品牌,但是依然没有找到那款你在路上碰到的、让你中意的T恤。
最后,手机上弹出了一个手机促销活动的广告,你发现一款你非常喜欢的品牌的手机价格很便宜,虽然你已经有手机了,但是你依然毫不犹豫地买下了它。
那么,在向你推荐产品时,一家公司到底有多大的能力,才能还原你所处的场景呢?
搜索引擎暴露出你目前住在上海的事实——你是最近搬过来的,网上的收货地址换到了上海。所以,它更多地推荐了上海的卖家给你。而你在到公司上班之前,才看到了那件T恤,觉得很好看,所以决定搜索T恤。但是,在你没有登录电商网站之前,T恤这个因素只有你知道,电商不知道。
因此,当你在搜索引擎里描述一件T恤的时候,你跟这家电商的第一个接触点就出现了,所以电商还原的场景是“早上九点半,你搜索了T恤,搜出了10万个结果,但你一个都没有点击进入”。电商完全不知道,这时候你不点击的原因仅仅是老板在叫你开会。
而会议开始后不久,你打开手机应用再次搜索T恤,这是和此电商的第二次接触。那么,后来在无数的品牌里面,你为什么忘记了早上喜欢的那款T恤,最终选择了一部比较便宜的手机?有谁知道你为什么这么选择?最后,你买了一部手机,选择了上海的卖家,事实上你只是过去在上海出差了几个月,而现在却在杭州。
试问,一家公司能有多大的能耐猜到这些复杂的场景,以及这些每一天每时每刻每一个进入网站的用户背后发生的特别故事?
所以,每一个数据分析师都闭着眼睛说:“我不管用户之前看过什么T恤,反正他搜索了之后什么都没点击,可能是推荐的算法不给力。”而在手机端中,又有一名数据分析师说:“这是这个用户第一次登录无线终端啊,也是第一次点击了T恤搜索选项。”
正如你看到的,在本应有那么多连接性的数据里面,在购买T恤的案例中却没有了任何连接性,那么,企业怎么还原你的购物场景呢?每个人都在猜想可能的原因。而且,值得一提的是,这个案例仅仅涉及了用户在一个网站上作出的购买行为,且没有做过全网比价,而在真实的购物场景中哪里会这么简单?即使是这么简单的一个场景,企业又该如何实现还原呢?
每天都有大量的碎片化数据产生,每天我们都在假定。那么,用这种状态分析数据,能有多可靠?
所以,企业在收集数据的时候一定要明确:企业是否有能力辨别用户?是否有能力收集用户在企业网站中发生的所有行为?是否有能力把手机移动端和PC端区分开来?企业又拥有多大的能力看到具体的场景是怎样的,比如,今天南方有没有下雨,东北有没有下雪?归根结底,我想说的是,作为企业,你到底有多大的能力去还原用户的真实需求?
还原是一个瞄准器
数据的本质就是还原,这是收集元数据的关键方法。
当我们在进行场景还原时,必须认清数据收集的领域是什么。在不同的领域里收集到的数据,可以找到与其所在领域里不同的东西,比如,搜索引擎和社交网络(SNS)得到的数据就是不一样的。而企业首先要做的是,确认用户是不是同一个人,比如在SNS里涉及的很多信息主要都是聊天内容,如果我是做SNS的,我就会更多地去寻找这个人和其他人的关系。他今天跟张三聊了3分钟,明天跟李四聊了5分钟,这项数据在SNS领域里可以获得。但当我们要真实地还原整个人的行为的话,最好要有不同领域作为互补,这会让你掌握更多更全面的信息。
有多大的能力弄清哪些数据是同一个用户的,这是企业首先必须解决的问题。然后再去关注,收集到的数据的量这么大、广度这么宽,价值在哪里。而当企业不清楚收集到的数据是不是同一个用户的时,那这个数据又有什么用?所以,在大数据里,最重要的还是收集人的数据。
而数据的价值,正如我们前面所分析的,必须来自场景。
对于消费者数据的收集,其中一个瞄准器就是你能否还原用户购买行为的场景。基于科技的不断进步,如果有一天Google Glass成为每个人的标配,或者是有一天,我们买的每一台电脑,其本身都是跟手机捆绑的,那么这两种交叉数据是很容易获取的。
为什么场景会变得如此重要?场景是不是被准确地表达了?场景是否会成为一件事情的背景,用来还原整件事情?有一年的“十一黄金周”,我们发现很多用户使用iPad购物,为什么?你或许不会想到,这是因为那年的“十一黄金周”第一次实行黄金周高速公路不收过路费的政策,很多人堵在了路上,没有其他事情做,所以只能使用iPad购物。如果企业在分析数据的时候,没有考虑到“十一”假期期间整个中国的高速公路都出现拥堵的这个场景,企业就没有办法还原整个场景,也就无法解释这个现象。
我还发现了一个新场景。有一天,我们研究了一些移动数据——用二维码让用户登录我们预想让他登录的页面。我们可以看到, iPhone手机在扫完二维码后就到达了页面,但是安卓却没有。在中国,很多装有安卓系统的手机在扫完二维码之后都无法自动跳转到关联页面。这时,安卓手机就成为用户登录网站购物的重要场景。不管是一部iPhone手机、一部三星手机,还是一部其他品牌的手机,手机的大小和系统的兼容性本身都能对场景产生巨大的影响。而如果我们盲目地去观察数据本身,自以为是地认为用户没有进行点击,那就大错特错了。事实上,是他点不了。
可见,有很多看似无关紧要的东西都在场景里,而在无线移动终端的世界里,这个场景又平添了很多其他的东西,这都需要我们仔细地甄别。
当我和数据分析师们聊天时,我总是会特别提醒,在研究移动数据的时候,要特别注意用户在每天移动的时间点和非移动的时间点里都做了什么。从起床到睡觉,有几个时间点基本是固定的,所以基本上就可以判断每个人一天的行为走势是什么。
我曾经在一次电商大会的圆桌论坛上提出了一个观点,当时与会者都很认同,就是我建议把一些以前用来观察用户忠诚度的框架,比如RFM模型来做收集数据的瞄准器。有什么数据能让我更好地看到R,更好地看到F,更好地看到M?RFM是一个收集维度,个人PC、手机、平板电脑是另一个终端场景维度,PC能更好地收集R,手机能更好地收集M,这样就可以通过场景的不断变换来收集更多的数据。
现在,有一些终端的确可以收集以前收集不到的数据。以前,我们不知道一些数据的收集背景是不是移动的,但现在可以。用户做一件事情的时候是不是正在移动?他是不是在某个百货商场里面?面对不同的场景,我们的框架也要相应改变。所以,现在做数据分析报告,最后的一个问题变成了:“无线变了,这个报告的结果还是一样吗?你的报告应不应该也变一下?”
我认为,数据的本质就是还原,这是收集元数据的关键方法。如果没有这个概念,你就不知道未来你需要什么数据,就更不懂得什么是重要的数据,到最后只会产生越来越多的无从辨别的数据。一旦数据多到了连你的公司都没有办法处理的时候,那么其他会处理的人、公司和国家就会把你毫不留情地挤出市场。
“未来一定是国家和国家之间的数据大战,公司与公司之间的数据大战!”信息时代催生了海量数据的出现,这个世界上每时每刻都在产生大量的数据。大数据已经不再是一个单纯的概念,而是像空气一样围绕在每个人的身边,每个人都是数据的制造者。也正是因为每个人都在通过不同的设备生产着数据,使得数据更多在“量”这个维度上不断膨胀,但是,“量”的单纯膨胀却对企业真正了解一个用户的需求产生了极大的挑战。所以,如何更好地识别各个设备的使用者是否为同一个人,如何更好地理解用户在各个不同场景下表现出来的不同需求,如何更好地理解数据融合后产生的价值,将是未来商业中每一个企业都必须考虑的问题。
在不久的将来,随着O2O的深入和可穿戴设备的兴起,企业和企业之间必须进行更多的数据融合和交换,必须进行更多的跨行业的数据交流,这样才能更好地还原用户真正的需求,让用户在任何一个场景中都能够获得由数据带来的便利。
总而言之,更深化的数据连接使海量数据经过提炼更真实地还原了事实,也使我们运用数据科技去解码未来的需求成为可能。