第三节 大数据概念的界定
究竟何为大数据?“大数据”一词可以从字面上理解为“巨大的数据量”。Manyika等认为“大数据是指数据的集合,其大小已经超出了现有典型数据库获取、存储、管理和分析数据的能力”。达到什么程度的数据才可以叫作大数据?目前尚未形成一个普适性的定义。一般认为,大数据的量级应该是“太字节”,即2的40次方。当数据规模非常巨大达到某种程度时,会使数据呈现某些有价值的特性,而由于数据体量较大,这些特性无法通过传统的数据处理技术进行归纳分析,需要新的技术进行挖掘与分析。因此,大数据不仅指规模巨大的数据,而且是一种分析处理庞大数据的技术。涂子沛在其《大数据》一书中认为“大数据”是指一般的软件工具难以捕捉、管理和分析的大容量数据,以“太字节”为单位。“大数据”之大,不仅在于容量之大,更深层次的意义在于:因为人类分析和使用的数据量呈爆炸式增长,通过对海量大数据的交换、整合、挖掘和分析,可以发现新的知识,创造新的价值,由此带来“大知识”“大科技”“大利润”和“大发展”。
本节将从理论、技术、实践三个层面具体论述大数据的概念,如图1-2所示。
图1-2 大数据概念的层面
一、理论层面
目前尚未有权威机构对大数据的概念进行统一界定,因此存在多个版本的定义。
1. John Rauser亚马逊网络服务(Amazon Web Services, AWS)大数据科学家
大数据就是任何超过了一台计算机处理能力的庞大数据量。
2. 麦肯锡
大数据是指无法在一定时间内用传统数据库软件工具对其内容进行采集、存储、管理和分析的数据集合。
3. 维基百科
巨量资料(big data),或称大数据,指的是所涉及的数据量大到无法通过目前主流软件工具,在合理时间内达到撷取、处理并整理成为促进企业经营更积极决策的资讯。
4. 研究机构Gartner
“大数据”是使用高效的信息处理方式以具备更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。从数据的类别上看,“大数据”是指无法使用传统流程或工具处理或分析的信息。它定义了迫使用户采用非传统处理方法处理的超出正常处理范围及大小的数据集,其价值在于提高数据使用者的最终决策力(图1-3)。
图1-3 大数据的定义
5. 互联网数据中心(IDC)
大数据是为更经济地从高频率的、大容量的、不同结构和类型的数据中获取价值而设计的新一代架构与技术。
6. 《互联网周刊》
“大数据”的概念远远超过了海量数据及处理数据的技术,或是类似的“4个V”的简单理解,而是涵盖了人们只有在基于大规模数据能够做的事情,这些在小规模数据的基础上是根本无法实现的。也就是说,大数据让我们以一种前所未有的方式,通过对大规模数据进行分析,获取有巨大价值的产品及服务,或深刻的洞见,最后形成变革之力。
7. 《大数据时代的历史机遇——产业变革与数据科学》
“大数据”是在多样的或者大量的数据中,迅速获取信息的能力。前面几个定义都是从大数据本身出发,我们的定义更关心大数据的功用,它能帮助大家干什么。在这个定义中,重心是“能力”。大数据的核心能力是发现规律和预测未来。
上述定义基本上都是基于大数据内涵本身,但在现实中,更重要的是大数据的价值与应用。因此下文将从大数据的定义、特征出发,了解各行各业对大数据的整体描绘和定性分析,挖掘大数据的独特价值,洞悉大数据的未来发展趋势,并从数据安全的角度重新审视数据的合理有效使用问题。
(一)特征定义
大数据作为数据本身具备三个特点,一是广泛存在性,即绝大多数产品与行为均可产生数据,是否记录主要取决于技术能力与成本考量;二是非独占性,即数据可被多次使用,尤其是公开的数据可以被其他人所使用;三是多认知性,即根据使用者的不同,同样的数据会产生不同的理解和使用方式。
而“大”为之带来的特点则是体量巨大,处理速度较快、数据类型多样、商业价值高和在线化。2001年2月,梅塔集团分析师道格·莱尼发表了《3D数据管理:控制数据容量、处理速度及数据种类》的研究报告,对大数据提出“3D数据管理”的看法,即数据成长将朝三个方向发展,分别为数据即时处理的速度(velocity)、数据格式的多样化(variety)与数据量的规模(volume),被归纳为“3V特征”。之后,随着资讯科技的进步,数据量的复杂程度越来越高,“3V”已经不足以形容新时代的大数据,因此在2012年,不仅莱尼提出调整现有的3V分析框架,而且包括高科技公司IBM、国际调查机构Gartner、IDC等纷纷对大数据提出新的论述,在原本的速度、多样化与规模三个特征上,增加价值性(value)和在线的(online)两个特征。
大数据的五个特征联系紧密、协同交替,如图1-4所示。
图1-4 大数据的特征
(1)数据体量(volume)巨大,一般数据库的大小在TB级别,而大数据的起始计量单位在PB(1 PB=1 024 TB)级别,有的甚至跃升至EB、ZB级别,包括采集、存储和计算的量都非常大。百度资料表明,其新首页导航每天需要提供的数据超过1.5 PB,这些数据如果打印出来将超过5 000亿张A4纸。有资料证实,到目前为止,人类生产的所有印刷材料的数据量仅为200 PB。
(2)数据类型(variety)繁多,有结构化、半结构化及非结构化数据,具体表现为图片、地理位置信息、网络日志、视频、音频等,其中个性化数据占绝大多数。多类型的数据对数据处理能力的要求更高,已冲破了之前所限定的结构化数据的范畴。
(3)处理速度(velocity)快,在数据量非常庞大的情况下,也能够做到数据的实时处理与分析,这与传统的数据挖掘技术有着本质的不同。数据体量的增大对数据的处理速度、时效性提出了更高的要求,如搜索引擎要求几分钟前的新闻能够被用户查询到,个性化推荐算法尽可能要求实时完成推荐。而大数据技术正好能满足这一需求,这也是其区别于传统数据挖掘的显著特征。
(4)价值密度低(value)。随着互联网以及物联网的广泛应用,信息感知无处不在,大量信息的价值密度很低,即尽管数据量大,类型多,处理速度快,但真正有价值的数据却很少。以视频为例,1小时的视频,在持续不间断的监控过程中,有价值的数据可能只有一两秒。如何结合业务逻辑并通过强大的机器算法来挖掘数据价值,是大数据时代亟须解决的问题。
(5)数据是在线的(online),即随时能调用和计算的,这是大数据区别于传统数据最大的特征。在互联网高速发展的背景下,数据资源不仅仅是体量大,更重要的是表现出在线这一显著特征。数据只有在线,即数据在与产品用户或者客户产生连接的时候才有意义。如用户在使用某互联网应用时,其行为能够及时地传给数据使用方,数据使用方通过数据分析或者数据挖掘进行加工,对该应用的推送内容进行优化,把用户最想看到的内容推送给用户,就能提升用户的使用体验。
此外,业界还有人总结出大数据的其他特征,如数据准确性(veracity)高,随着社交数据、商业交易与应用数据等新型数据源的兴起,企业越来越需要有效的信息以确保其真实性及安全性;存活性(viability)低,是指特定情况下的大数据具有很强的时效性。
与传统数据服务相比,大数据服务拥有来自企业内部、外部市场及环境等不同来源的海量数据,通过传感器采集、互联网抓取等方式获取。快速发展的分布式计算及多样的数据分析模型使海量数据处理成为可能(图1-5)。
图1-5 传统数据服务与大数据服务的不同
(二)价值探讨
随着大数据时代的来临,大数据技术开始广泛应用于越来越多的领域,但只有了解大数据的价值,了解大数据究竟会如何改变生活才能更好地利用大数据。因此,需要结合时代与社会背景来具体分析大数据,理解它如何在时代变革中发挥作用。
1. 技术变革
大数据的处理与分析正成为新兴信息技术应用融合的结点,并持续推动信息产业高速增长。移动互联网、物联网、社交网络、电子商务等是新一代信息技术的应用形态,这些应用会不断地产生即时数据,成为大数据的重要来源。云计算技术则为这些海量、多样化的大数据提供存储和运算平台,并通过分析优化,将结果反馈到应用中,使其创造出巨大的经济和社会价值。大数据价值的实现呼唤新技术、新产品、新服务、新业态的产生。这在硬件与集成设备领域表现为对芯片、存储性能提出更高的要求,并催生一体化数据存储处理服务器、内存计算等市场;在软件与服务领域表现为,引发了数据快速处理分析、数据挖掘技术和软件产品的发展。
2. 行业变革
大数据日益成为提高企业核心竞争力的关键因素,不同行业的企业决策正在由“业务驱动”转向“数据驱动”。对大数据的分析可以帮助企业为消费者提供更加快速和个性化的服务;可以为商家制定精准营销的策略提供决策支持;在公共事业领域,大数据在促进经济发展、维护社会稳定等方面起着重要作用。各行各业将在大数据技术的指导下,重新定义行业的未来,这将引发全行业的变革。
3. 思维变革
在大数据时代,科学研究方法将发生重大改变。抽样调查不再是社会科学研究中普遍采取的方法,而是通过实时监测研究对象在互联网上产生的海量行为数据,进行挖掘分析,揭示出规律性的东西,提出研究结论和对策。由于采集、存储、分析数据能力的提高,大数据时代下我们可以收集全体数据而非随机样本。当我们掌握了海量数据时,精确性就不那么重要了,因为我们足以掌握事情的发展趋势。同时,我们不再关注数据之间的因果关系,而是仅仅从数据中发现相关关系,让数据自己“发声”。如此的相关关系分析法能够更快、更准确地处理数据之间的关系,而且不易受偏见的影响,提高了分析决策的效率。探求数据价值取决于把握数据的人,关键是人的数据思维,与其说是大数据创造了价值,不如说是大数据思维触发了新的价值增长。
从哲学意义上说,大数据的价值来自“大成智慧”。每个数据来源都有一定的片面性和局限性,只有整合各类原始数据,才能体现事物的全貌。事物的本质与规律隐藏在各种原始数据之中。不同的数据能对同一个问题提供不同角度的互补信息,可以帮助更深入地理解相关问题。因此汇集尽量多种来源的数据是大数据分析的关键。
数据科学是数学(统计、代数、拓扑等)、计算机科学、基础科学和各种应用科学融合的结果。大数据能不能出智慧,关键在于对多种数据源的集成和融合。发展大数据的目标就是要获得协同融合的“无缝智慧”,单靠一种数据源会导致片面性。数据的开放共享是决定大数据成败的重要前提。大数据研究与应用要改变过去各部门和各学科相互分割、独立发展的传统思路,而是强调不同部门、不同学科的协作。
(三)未来展望
大数据的未来应用前景是非常光明的。虽然目前无法准确预测大数据最终会将人类社会带往哪种形态,但只要发展的脚步还在继续,因大数据而产生的变革浪潮将会波及这个星球的每一个角落。
未来大数据应用中一个难以绕开的问题就是用户隐私问题。如被央视曝光过的罗维邓白氏和分众无线涉及侵犯用户隐私。到目前为止,中国还没有出台专门的法律法规来定义用户隐私,必须利用其他相关法律法规来解释有关问题。但随着民众个人隐私保护意识的日益增强,在进行大数据分析时必须遵循合法合规地获取、分析及应用数据的原则。2012年3月,Gartner发表了一份题为Information Security is Becoming a Big Data Analytics Problem的报告,表示信息安全问题正在变成一个大数据分析问题,大规模的安全数据需要被有效地关联、分析和挖掘,并预测未来将出现安全分析平台,以及部分企业在未来5年将出现一个新的岗位——“安全分析师”或“安全数据分析师”。
对于大数据安全分析而言,最关键的不在于大数据本身,而在于对这些数据的分析方法。大数据安全分析可以使用大数据分析通用的技术与方法,但是当具体应用到网络安全领域的时候,还必须考虑到安全数据自身独有的特点及安全分析的最终目标,只有这样,大数据安全分析的应用才更有价值。例如,在进行异常行为分析,或者恶意代码分析和APT(高级持续性威胁)攻击分析的时候,先分析模型才是最重要的。其次,才是考虑如何利用大数据分析技术(例如,并行计算、实时计算、分布式计算)来实现这个分析模型。
二、技术层面
大数据技术是大数据价值实现的手段和保障,下文将从数据采集、导入与预处理、统计分析和数据解释四个步骤来具体论述大数据的分析过程。
(一)数据采集
数据采集是指利用多个数据库来接收各种客户端(Web、APP或者传感器形式等)的数据,并且用户可以通过这些数据库来进行简单的查询和处理工作。比如,电商会使用传统的关系型数据库MySQL和Oracle等来存储每一笔事务数据,除此之外,Redis和MongoDB这样的NoSQL数据库也常用于数据的采集。数据采集是大数据处理流程的基础,目前常用的采集手段有条形码技术、射频识别技术(radio frequency identification, RFID)等。在大数据的采集过程中,面临的一个主要挑战是并发数高,如火车票售票网站、亚马逊、淘宝这样的网站可能同时访问与操作的用户数以万计,它们并发的访问量在峰值时达到上百万,需要在采集端部署大量数据库才能支撑。因此,需要深入地思考和设计如何在这些数据库之间进行负载均衡。
(二)导入与预处理
数据导入与预处理的主要任务是对采集到的数据进行适当的清洗、去噪、抽取和集成。一般而言,通过在采集端部署大量数据库能够采集到海量的数据,但是通过各种渠道获取的数据类型非常复杂,给后续的数据分析造成了困难。要想对这些海量数据进行有效的分析,应该将这些来自前端的数据导入一个集中的大型分布式数据库或分布式存储集群,经过数据处理环节后,数据结构变得单一而且易于处理。除此之外,有必要使用聚类分析或者关联分析等方法对数据进行去噪及清洗,从而保证数据的质量与可靠性。导入与预处理过程的主要问题是导入的数据量大,每秒钟的导入量常常会达到百兆、千兆,甚至更高级别的数据。
(三)统计分析
统计分析是大数据处理流程中最为关键的部分,也是发现数据价值的主要环节。由于大数据具有多样性特点,仅采用传统的数据挖掘、机器学习、智能计算等数据分析方法已无法满足大数据时代对算法提出的快速高效等要求。因此,需要利用新技术对大数据进行有效的处理分析。其中主要使用分布式数据库,或是分布式计算集群等工具对存储的大规模数据进行普通的分类汇总及简单分析,从而满足大部分的基本分析需求。有些即时需求会用到EMC的GreenPlum、Oracle的Exadata,以及基于MySQL的列式存储Infobright等,而Hadoop则被用来处理一些基于半结构化或批处理的数据。统计分析的主要挑战就是关联的数据量大,其对系统资源,尤其是I/O会有极大的占用,因此亟待提高基础设备的性能。
大数据统计分析具体可以概括为以下四个基本方面。
一是可视化分析(analytic visualizatons),这是用户最基本的要求。因为可视化分析可以直接呈现大数据的特点,并且非常容易为读者所接受,使得数据分析解读如同看图说话一样简明。
二是数据挖掘算法(data mining algorithms),这是大数据分析的理论核心部分。基于不同数据类型与格式需要多种各异的算法才能更科学地展现出数据本身具备的特点,才能深入数据内部,挖掘出数据应有的价值。与此同时,基于大部分数据的时效性特征,数据挖掘算法对于迅速处理数据而言至关重要,否则大数据的价值就会难以衡量。
三是预测性分析(predictive analytic capabilities),这是大数据分析最核心的应用之一。该种分析从海量数据中勘探出某些特征,在此基础上建立科学的模型,并随后通过将新数据导入模型以预测未来可能的结果。
四是语义引擎(semantic engines)。大数据时代下数据类型更加多样化,非结构化、半结构化数据的出现带来了挑战,需要用新的技术加以解决。而“语义引擎”能够从“文档”中智能提取信息,如从用户的搜索关键词、标签关键词或其他输入语义中分析并判断用户的需求,能实现更好的用户体验和精准营销,提高数据分析的效率。
(四)数据解释
解释与演示大数据的分析结果是数据解释的主要任务。不合适的数据显示结果会困扰和误导用户。在大数据时代,基于文本形式及屏幕输出的传统方式已不再适用,因此有必要通过数据可视化、人机交互等新型技术将分析结果生动形象地展示给用户,以帮助用户更加清晰地了解整个数据处理流程和最终结果。
三、实践层面
大数据的价值最终体现在实际运用中。下面将分别从互联网大数据、政府大数据、企业大数据和个人大数据四个方面来描绘大数据时代的美好蓝图。
(一)互联网大数据
据IDC预测,到2020年全球将总共拥有35 ZB的数据量。互联网是大数据发展的前沿阵地,随着Web 2.0时代的发展,人们似乎都习惯了将自己的生活通过网络进行数据化,加速了大数据时代的来临。互联网数据以每年50%的速度增长,每两年便将翻一番,目前世界上90%以上的数据是最近几年才产生的。
互联网领域大数据应用的典型代表可以简要归纳如下。
1. 用户行为数据
用户行为数据主要是通过在手机移动端、智能穿戴设备、智能家居、社交网站等客户端采集此类数据,进行用户的行为习惯与喜好分析,从而实现内容推荐、精准广告投放、产品优化等目的。微信在其朋友圈逐步投放广告,也是其利用用户行为数据进行精准营销的实践之一。
2. 用户消费数据
用户消费数据主要是通过电商平台、导购网站上的交易数据、浏览记录来实现对产品的精准营销以及对用户的信用记录分析,从而实现更精准地开展促销活动,评估用户的信用等级并协助其理财等功能。阿里集团凭借旗下的淘宝、天猫等购物平台收集了大量的用户交易数据和信用数据,能够对用户的消费习惯做出预测,在合适的时点进行大规模的促销,“双十一”购物节的成功就是很好的例子。同时,蚂蚁金融还推出了信用评估体系——芝麻信用分,并在此基础上开发了消费贷款产品——花呗,为其涉足互联网金融领域奠定基础。
3. 用户地理位置数据
用户地理位置数据主要是通过移动端对用户的地理位置进行定位,从而实现O2O推广、商家推荐、交友推荐等,以线上的营销带动线下的消费。大众点评、美团等团购平台就是利用了这种数据类型实现营销。
4. 互联网金融数据
互联网金融数据主要指P2P、小额贷款、支付等交易记录以及信用记录,从而更精准地进行金融产品的营销、对金融产品及服务进行定价、提高风险控制的水平。
5. 用户社交等UGC数据
用户社交等UGC数据,即用户通过互联网平台向其他用户分享的自己原创的内容。UGC不是某一种具体业务,而是用户使用互联网的新方式,由原来的以下载为主转变为下载和上传两者并重。YouTube等网站是UGC的成功案例,社区网络、图片分享、视频分享等都是UGC的主要应用形式。收集这些数据可以用于趋势分析、流行元素分析、受欢迎程度分析、舆论监控分析、社会问题分析等,并可以从里面挖掘出政治、社会、文化、商业、健康等领域的信息,甚至可以用于预测未来。
(二)政府大数据
我国政府部门握有构成社会基础的原始数据,如信用数据、气象数据、环保数据、金融数据、电力数据、教育数据、煤气数据、道路交通数据、自来水数据、医疗数据、安全刑事案件数据、住房数据、海关数据、出入境数据、旅游数据等。这些数据在每个政府部门里看起来都是单一的、静态的。但是如果可以将这些数据关联起来,并对这些数据进行有效的关联分析和统一管理,那么这些数据必将创造出无法估量的价值。大数据拥有变革产业、变革社会的力量,在我国产业结构升级、城市规划、政治改革的进程中必然发挥重要的作用,这使得它成为国家战略的重要组成部分。
具体以智慧城市建设为例。现代化城市都计划走向智能和智慧,如智能电网、智慧交通、智慧医疗、智慧环保、智慧城市等,而这些目标的实现都需要紧紧依托大数据,可以说大数据是智慧的核心能源。基于国内整体的投资规模,到2012年年底全国开展智慧城市创建的城市数量超过180个,数据平台及通信网络等基建的投资规模将近5 000亿元。“十二五”时期智慧城市建设带动的设备投资规模预计近1万亿元。大数据将为建设智慧城市涉及的多个领域提供决策帮助。对于城市规划,城市地理、气象等自然信息及社会、经济、文化、人口等人文社会信息的挖掘可以为城市规划提供建议和协助决策,提高城市管理服务的科学性及前瞻性。对于交通管理,通过对道路交通信息的实时挖掘,可以有效缓解交通拥堵的情况,并且快速应对突发状况,为城市交通的正常运行提供科学的决策依据。对于舆情监控,通过网络相关关键词的搜索和语义智能分析,可以加强舆情分析的及时性及全面性,把握舆情,应对网络突发公共事件,打击违法犯罪等恶劣行为,多角度提高公共服务能力。最后,对于安防和防灾方面,利用大数据挖掘能够及时发现自然或者人为灾害、恐怖袭击事件,提高应急处理能力和安全防范能力。
(三)企业大数据
企业决策者需要借助充足的数据来做出科学决策。在未来,大数据就像一个巨大的杠杆,能够从局部撬动企业整体,提升公司的影响力,带来竞争差异,增加利润,愉悦买家,奖赏忠诚用户,将潜在客户转化为客户,增加企业对顾客的吸引力,开拓用户群并创造市场。以下三类传统企业最需要大数据服务:一是对大量的消费者提供产品或服务的企业,大数据能够帮助它们实现精准营销,从而降低成本、提高利润、提升竞争力;二是做小而美模式的中长尾企业,借助大数据分析能够对目标市场及客户做出更准确的分析与评价,协助它们实现服务转型与升级;三是在互联网浪潮的冲击下必须转型的传统企业,这类企业必须抓住大数据这一机遇,大胆革新、适时转型,否则必将被互联网企业所淘汰。
在未来,数据有可能逐渐成为企业的一种资产,并逐渐实现数据产业向传统企业的供应链模式发展,最终形成“数据供应链”模式。在这种情况下会出现以下两个较为明显的现象:一是外部数据的重要性日益超过内部数据,因为在互联网时代下,单一企业的内部数据与整个互联网数据比较起来犹如沧海一粟,企业外部的海量数据将发挥更重要的作用;二是如果一个企业能够提供包括数据供应、数据整合与加工、数据应用等多个环节服务,那么这样的企业会有较为明显的综合竞争优势。在这样的时代发展趋势下,一直做企业服务的行业巨头优势将不复存在,不得不接受新兴互联网企业的挑战,开启新一轮的激烈竞争。以IBM为例,上一个十年,他们抛弃了个人计算机业务,成功将业务重心转向了软件和服务。而这次将它远离服务与咨询业务,更多地专注于因大数据分析软件而带来的全新业务增长点。IBM执行总裁罗睿兰认为:“数据将成为一切行业当中决定胜负的根本因素,最终数据将成为人类至关重要的自然资源。”IBM积极地提出了“大数据平台”架构,该平台的四大核心能力包括Hadoop系统、流计算(stream computing)、数据仓库(data warehouse)和信息整合与治理(information integration and governance)。
(四)个人大数据
顾名思义,个人大数据就是与个人相关联的各种有价值数据信息的总和。这些数据集被有效采集后,经本人授权后提供给第三方进行处理和使用,并获得第三方提供的数据服务。以个人为中心的大数据具有以下几个特征:一是数据仅保存在个人中心,只有经过本人的授权,其他第三方机构才能够使用,并且有一定的使用期限,必须接受监管,用后即焚;二是采集个人数据应该明确分类,除了国家立法明确要求接受监控的数据外,其他类型的数据都由用户自己决定是否被采集;三是数据的使用将只能由用户进行授权,数据中心可帮助监控个人数据的整个生命周期。
在此,对个人大数据时代的光明前景进行大胆展望。未来,每个用户都可以在互联网上注册个人的数据中心,以存储个人的大数据信息。其中,有一部分个人数据是无须个人授权即可提供给国家相关部门进行实时监控的,如罪案预防监控中心可以实时监控本地区每个人的情绪和心理状态,以预防自杀和犯罪的发生。除此之外,用户还可决定其他个人数据哪些可以被采集,并通过可穿戴设备或植入芯片等感知技术来采集捕获个人的大数据,如牙齿监控数据、心率数据、体温数据、运动数据、视力数据、记忆能力、饮食数据、购物数据、地理位置信息、社会关系数据等。用户可以将其中的牙齿监测数据授权给牙科诊所使用,由他们监控和使用这些数据,进而为用户制订有效的牙齿防治和维护计划;也可以将个人的运动数据授权提供给某运动健身机构,由他们监测自己的身体运动机能,并有针对地制订和调整个人的运动计划;还可以将个人的消费数据授权给金融理财机构,由他们帮助制订合理的理财计划并对收益进行预测。但是,个人数据中心的产生必然伴随着个人数据隐私被泄露的隐患,所以未来在推进个人数据中心建设的进程中需要解决的问题是如何通过有效的数据监管措施来保障数据的安全与合理利用。