1.2.2 信息壁垒严重
大数据产业的一大特征就是数据的关联性强,著名的“谷歌预测流感”事件就是大数据关联应用的成功案例。随着大数据产业的成熟,数据的关联场景也越来越多,例如支付宝的支付数据和用户的公交卡使用数据相联合,就能够为企业刻画出完整的用户日常出行路线和门店消费喜好。单独的数据通过中间元素的串联,能够产生“1+1>2”的效果,数据的价值也呈指数型增长。
关联的数据越多,数据联合产生的“滚雪球”的效果越明显。这也从另一方面证明了数据必须要经过流通互动才能产生更大的价值。但是真正开始实施数据关联时,就会发现实际操作并没有想象得那么简单,大数据产业中的信息壁垒仍十分严重,主要的具体因素有以下三点,如图1-5所示。
图1-5 大数据产业信息壁垒的具体因素
1.数据安全与信任问题
数据资源分散在不同的企业组织中,想要让不同行业的数据发生关联,必然需要将数据交付到另一方企业,或者双方将数据交付至一个共同的第三方平台以交易的形式发生数据交换,这也是大数据产业目前最常见的商业模式即大数据交易中心。
由于数据的特殊性,大数据交易平台能否保证数据不被泄露成为了阻碍大数据交易的首要问题。数据的安全和信任问题成为大数据产业出现信息壁垒的重要因素。
2.数据统一问题
单纯从数据关联的技术手段来看,数据关联也存在着许多问题,比如不同公司对同一类型数据的分类标准不同、使用单位不同,这都给数据的融合统一带来了很大的困难。而数据不能统一,就不能够直接被利用,这也给大数据造成了信息壁垒。
3.存储与传输问题
目前大数据的数据库为了适应不同的要求,有着不同的架构设计,这也就导致了在发生数据传输时会有着不同的传输方式。而想要发生数据的联合,必须要创造出能够适应不同数据源的架构,这显然是一个非常困难的问题。不能够用统一的方式解决数据存储和传输问题也给打破数据的信息壁垒带来了不小的困难。
国际数据公司(IDC)对大数据行业的统计及预测显示,预计到2020年,全球大数据总存储量将会达到44ZB(1ZB约等于1012GB)。这么多的数据因为壁垒的存在,都处于沉睡的状态,并不能发挥出它们应有的能力。
针对我国大数据行业的信息壁垒现象,中关村大数据产业联盟秘书长赵国栋表示,相比于行业间的数据流通,政企之间的壁垒更是一块沉睡数据的“集聚地”。目前一些上市数据如股权占比、科研数据都是价值密度比较高的沉睡数据。
目前,数据壁垒普遍存在于政企之间、企业和企业之间,其中,有80%以上的信息数据资源掌握在各级政府部门手里,而不同区域的部门间基本实现信息共享的省级地区仅占13%。由此可见,我国政府部门的信息共享和业务协同能力在地市和区县进展缓慢。
在政企之间这种壁垒显得更加明显,从中国信息通信研究院对国内800多家企业的大数据使用调研结果来看,企业所使用的大数据的主要来源仍是其公司内部数据,有32%的企业数据来源是外部购买数据,而使用了政府开放数据的企业只有18%。
而数据开放的优势是可以预见的,上海至信普林科技有限公司总经理顾敏洁曾对数据开放持有非常乐观的态度,“如果更多数据可以开放,将会对产业转型、政务和公共服务效率提升等大有裨益。比如中国人民银行上海总部自2006年起公开金融信息后,催生了一批金融信息咨询服务公司,其中还有5家上市公司,拉动的就业人数也非常可观。”
数据开放的优势如此显著,但是由于信息壁垒的因素,现有大数据行业还远不能达到成熟的共享开放,甚至已经开放的数据也是“开放的孤岛”,比如一些机构以“数据共享”的名义公布的类似停车位数量、非标准化的图表等形式的数据,这些数据由于不可机读,不具备真正整合数据的价值,属于“伪开放”。
全国信息安全标准化技术委员会大数据标准工作组成员张群对数据整合开放的意见是“不同行业数据整合必然需要标准化的数据格式,比如从卫生、人口的角度用数据对‘人’进行的描述就是不一样的。”
因此真正属于开放性质的数据在技术上应该是具有标准形式的,可以直接被计算机抓取、调用。针对目前大数据行业的现状,在技术上实现对数据的整合开放显然还有一段距离。
另外,要想顺利打破数据间的信息壁垒,还要推进大数据行业的法律法规机制,并且应结合应用场景有目的地实现开放,而非为了开放而开放。中关村大数据产业联盟副秘书长陈新河说:“政企间或者政府牵头整合数据仍应围绕应用场景、项目工程来,否则目前‘唤醒’的数据早晚也会重新‘落满灰尘’。”
无论从技术上看,还是从法律上看,大数据行业的信息壁垒都是一个十分严峻的事实,阻碍着大数据行业进一步发展。如果没有较好的解决办法,大数据行业的未来将十分危险。