一、智能城市产业发展与大数据的内涵研究
近年来,随着计算机技术全面融入社会生活,数据爆炸已经积累到了一个开始引发全面变革的阶段。它不仅使世界充斥着比以往更多的数据,而且其增长速度也在加快。天文学和基因学等学科引发了数据爆炸,并创造出了“大数据”这个概念。如今,这个概念几乎应用到了所有人类智力与发展的领域中。而计算机的处理能力每18个月翻1倍(Moore定理)、全球通信系统的带宽每12个月翻3倍(Gilder定理)、磁存储器件的价格每18个月下降一半(Shugart定理),硬件处理能力的飞速发展为大数据技术的成熟和商业化奠定了坚实的物质基础。与此同时,互联网(社交、搜索、电商)、移动互联网(App、微信)、物联网(传感器、智慧地球)、车联网、定位系统(GPS)、医学影像、安全监控、金融(银行、股市、保险)、电信(通话、短信)都在疯狂产生数据,数据量呈井喷式增长。据统计,全球90%的数据都是在过去两年中生成的。这些由我们创造的信息背后产生的数据早已经远远超越了目前人力所能处理的范畴,大数据时代正在来临。
对于“大数据”这样一个正在引发剧烈变革的技术及其触发的新商业模式,研究机构和商业机构从不同角度对其进行了描述和定义。
● 麦肯锡:“大数据是指无法用传统数据库软件工具对其内容进行抓取、存储、管理和处理的数据集合。(“Big data”refers to datasets whose size is beyond the ability of typical database software tools to capture, store, manage, and analyze.)”
● Gartner:“大数据是海量、高增长率和/或多样化的信息资产,需要具有成本效益的创新形式的信息处理,以增强洞察力、决策制定和过程自动化。(Big data is high-volume, high-velocity and/or high-variety information assets that demand cost-effective, innovative forms of information processing that enable enhanced insight, decision making, and process automation.)”
● 《大数据时代》作者维克托(Viktor):“大数据是人们在大规模数据的基础上可以做到的事情,而这些事情在小规模数据的基础上是无法完成的;大数据是人们获得新的认知、创造新的价值的源泉;大数据还是改变市场、组织结构以及政府与公民关系的方法。”
● IDC:“大数据技术将被设计用于在成本可承受的条件下,通过非常快速的采集、发现和/或分析,从大量化、多类别的数据中提取价值,将是IT领域新一代的技术与架构。(IDC defines Big Data technologies as a new generation of technologies and architectures, designed to economically extract value from very large volumes of a wide variety of data by enabling high-velocity capture, discovery, and/or analysis.)”
图1-1-1是2014年Gartner的“技术成熟度曲线”。“大数据”技术2011年出现在该曲线中,2012年处于上升中途的位置,2013年达到技术炒作区域的顶点。从2014年的曲线看,“大数据”技术已经处于下降阶段了。
图1-1-1 2014年Gartner的技术成熟度曲线
Gartner在2014年《成熟度曲线特别报告》(Hype Cycle Special Report)中指出:“虽然对大数据的兴趣依然不减,但它已经离开高峰期,因为该市场已经安定下来,有了一整套合理的方法,新的技术和实践被添加进现有方案。”虽然大数据兴趣不减,市场趋向稳定,但Gartner认为,大数据还有5到10年才会进入稳定期。大数据相关技术的演进在未来一段时间内仍将展现出强大的生命力,相关市场的营收也将不断放大。
针对大数据,产业界和专家学者普遍认为其革命性在于其具有“4V”属性,如图1-1-2所示,“大量化(volume)、多样化(variety)、快速化(velocity)、价值密度低(value)”是“大数据”的显著特征,或者说,只有具备这些特点的数据,才是大数据。
图1-1-2 大数据的基本特点
尽管大数据的价值密度比较低,但是追求由大数据分析处理所带来的巨大数据价值是所有围绕大数据的商业模式创新的基本出发点。大数据时代触发了传统思维模式的巨大变革。首先,大数据强调要分析与某事物相关的所有数据,而不是分析少量的数据样本即可,即“样本=总体”,基于采样的方法论被摒弃;其次,大数据乐于接受数据的纷繁复杂,而不再追求精确性;最后,上述两个因素,促成人们不再探求难以捉摸的因果关系,转而关注事物的相关关系。
正是由于上述思想极具变革性,因此也引发了若干争论性的问题:
● 传统的结构化数据如果规模庞大,属不属于大数据?
● 大数据是不是只关注相关性,不强调因果性?
● 大数据的焦点在于“技术”还是“商业模式”?
什么类型的数据是大数据?这是在工业领域推广大数据技术并进行模式创新必然面对的问题。传统的工业数据一般都是结构化的,符合实体关系模型,可以存储在关系数据库中。这些传统数据一般都是精确的,并且有明确的商业目的和价值。而从狭义角度来理解大数据的定义,大数据是以往被忽略或者被遗失的数据,比如服务器的大量日志性记录。这些数据通常是非结构化的,需要进行分词等语法处理。
与智能城市产业相关的制造业的数据往往是结构化且具有强逻辑关系的。大数据的相关技术在产业数据的分析处理和相关业务模式的创新上已经并且会继续发挥重要的作用,因此我们认为对大数据应该从广义的角度来理解,包括结构化和非结构化的数据,只要规模庞大,符合大数据的4个特征中的一个或多个,就属于大数据。
维克多在《大数据时代》中特别强调大数据的目标是探寻相关性而不是因果性。在这本书中,这一观点反复出现并不断得到强化。《大数据时代》的译者电子科技大学周涛教授就在中译本序言中说:“我本人对于大数据时代‘相关关系比因果关系更重要’这个观点不认同。有了机器学习,特别是集成学习,我们解决问题的方式变成了训练所有可能的模型和拟合所有可能的参数——问题从一个端口进去,答案从另一个端口出来,中间则是一个黑匣子,因为没有人能够从成千上万的参数拟合值里面读到‘科学’,我们读到的只是‘计算机工程’。与其说大数据让我们重视相关胜于因果,不如说机器学习和以结果为导向的研究思路让我们变成这样。那么,大数据是不是都这样了?其实很多时候恰恰相反。”“认为相关重于因果,是某些有代表性的大数据分析手段(譬如机器学习)里面内禀的实用主义的魅影,绝非大数据自身的诉求。从小处讲,作者试图避免的‘数据的独裁’和‘错误的前提导致错误的结论’,其解决之道恰在于挖掘因果逻辑而非相关性;从大处讲,放弃对因果性的追求,就是放弃了人类凌驾于计算机之上的智力优势,是人类自身的放纵和堕落。如果未来某一天机器和计算完全接管了这个世界,那么这种放弃就是末日之始。”
另外一个关键问题是大数据的焦点在“技术”还是“商业模式”。大数据时代出现了一系列的商业变革:
● 量化一切,把世界万物数据化:文字、沟通、方位等均可数据化,数据可以提取自任何地方。
● 数据的创新利用:数据的再利用、重组数据、可扩展数据、开放数据等新的应用模式。
● 数据、技术与思维的三足鼎立:大数据掌控公司、大数据技术公司、大数据思维公司和个人对数据的掌控、利用和利益驱动交织在一起。
这些商业变革也引发管理理念和管理模式出现变革趋势:
● 隐私保护:无处不在的“第三只眼”与隐私被二次利用。
● 预测与惩罚:不是因为“所做”,而是因为“将做”,罪责的判定基于对个人未来行为的预测。
● 数据独裁:我们可能会过于依赖数据,而数据远远没有我们所想的那么可靠。
为了应对这种全方位多角度变革所带来的风险,我们需要研究智能城市产业中大数据的相关体系和研究方法论。
首先梳理大数据所涉及的研究领域。如图1-1-3所示,大数据的研究领域包括4个维度:
图1-1-3 大数据的研究领域
● 信息技术基础结构:包括了云计算、无线传感、分布式计算等一系列新的基础结构技术。
● 业务领域:包括了与社会服务和生产生活相关的所有领域,尤其是在医药卫生、电子商务等领域,大数据的应用呈现了旺盛的生命力。
● 统计算法:各种数据挖掘技术的发展,支持了大数据的分析和相关性的获取。同时,大数据的应用也为相关算法的发展提供了推动力。
● 分析策略:大数据的分析不是漫无目的的大海捞针,是在人的深入参与下完成的,体现了分析人员的目的性和策略性,因此《大数据时代》一书中充满了数据分析策略在不同数据分析场景中的身影。
从支撑技术系统的角度看大数据,如图1-1-4所示,涉及一系列大数据产品,实现对数据的管理,并支持对数据的各种应用功能。
图1-1-4 大数据的支撑技术
注:RDBMS:relational database management system,关系型数据库管理系统。Analytical DB:analytical database,分析型数据库。NoSQL DB: NoSQL 数据库。ERP/CRM: ERP 即enterprise resource planning,企业资源计划;CRM, customer relationship management,即客户关系管理。SaaS: software-as-a-service,软件即服务。Social Media:社会化媒体。Web Analytics:网站分析。Log Files:日志文件。RFID: radio frequency identification,无线射频识别。Call Data Records:呼叫数据记录。Sensors:传感器。Machine-Generated:机器生产。
从产业应用的角度看大数据,则是将无序的、非结构化的大数据,在分析框架、策略、方法论和商业模式创新设想的指导下,利用各种分析算法,在信息技术基础结构的支持下形成结构化的、有序的知识和价值的过程,如图1-1-5所示。
图1-1-5 大数据的产业应用视角
大数据在产业的应用并推动业务模式的创新,处于不同的发展阶段,需要采用不同的应用和发展策略:
● 阶段一:自身业务需求产生大量数据;利用这些数据,通过深入分析,优化相关业务;数据指导决策。
● 阶段二:搜集与目标业务直接或间接关联的大量异质数据;建立复杂的分析和预测模型,产生针对目标业务的输出;数据即决策。
● 阶段三:对数据质量、价值、权益、隐私、安全等产生充分认识,出台量化与保障措施;数据运营商出现,数据市场形成,数据产品丰富,数据客活跃;学术团体、企业和政府通过大量异质数据和数据产品产生科学、社会、经济等方面的新价值。
本书关注“产业发展与大数据”,研究主要围绕“产业发展”面临的问题及大数据解决方案来进行,不要满足于大数据能在产业中做什么,要从产业发展的角度,从大数据对产业上新台阶能做什么着手,也就是从产业发展角度研究大数据需要解决的问题:
● 产业发展面临什么问题?
● 大数据能够解决产业发展的哪些问题?
● 哪些国内外案例可以说明大数据对于产业发展的有效性?
● 解决相关产业发展问题需要利用哪些主要大数据技术?
在本书中,对智能城市产业的定位包括以下几方面:
● 与智能城市相关的产业,除了包括关注物质生产的制造业之外,还包括提供金融、保险、交通等现代服务业。
● 与智能城市产业发展相关的产业还包括大数据技术产业及由大数据催生的新产业。
由于智能产业背景、运作模式、信息化手段、参与人员等的不同,所以目前大数据在智能产业中的应用深度和广度有显著差异:
● 基于互联网(包括无线互联网)的信息服务业,大数据已经产生,利用大数据推动这类产业的快速发展已经成为其主要发展方向,典型案例是阿里巴巴、京东、腾讯等。
● 保险、水务等行业已经有大数据在形成,充分利用此类大数据已经提上议事日程。
● 在一些开展制造服务的大型装备企业,由于大量服役装备的监控需要,已经产生大数据。对于如何利用这类大数据,已开始研究。典型案例是三一重工等。
● 石油勘探等也是产生大数据的行业。对这些大数据的利用正在深入。
● 制造业还有许多大数据需要建立、集成、结构化和有序化,才能有效地满足我国技术创新、大批量定制和绿色制造等重大需求。因此,如何主动进行制造业大数据的顶层设计尚需考虑。