5G时代的大数据技术架构和关键技术详解
上QQ阅读APP看书,第一时间看更新

1.1 5G技术推动万物互联,重塑行业应用

1.1.1 5G三大典型业务场景下的大数据需求形态

国际电信联盟无线电通信局定义了5G三类典型业务场景:增强移动宽带(eMBB)、海量机器通信(mMTC)和超可靠低时延通信(URLLC),其主要特性将在3GPP(3rd Generation Partership Project,第三代合作伙伴计划)R16版本进行标准化。5G无线和承载网络在三大业务场景应用时所面临的挑战各不相同。

1.增强移动宽带数据吞吐量大

增强移动宽带(enhanced Mobile Broad Band,eMBB),是指在现有移动宽带业务场景的基础上,对用户体验等性能的进一步提升,主要还是追求人与人之间极致的通信体验。如表1-1所示,eMBB主要面向超高清视频、虚拟现实(VR)、增强现实(AR)、高速移动上网等大流量移动宽带应用,是5G对4G移动宽带场景的增强,单用户接入带宽可与目前的固网宽带接入达到类似量级,接入速率增长数十倍,对承载网提出超大带宽需求。

表1-1 eMBB数据需求场景

5G在增强移动宽带场景中带来的最直观的感受就是网速的大幅提升,即便是观看4K高清视频,峰值也能够达到10Gbps。未来几年,用户数据流量将持续呈现爆发式增长(预计年均增长率达47%),而业务形态以视频为主(78%)。在5G“高宽带”支持下,用户可以轻松享受在线2K、4K视频以及VR、AR视频,从表1-1可以看到,用户体验速率可提升至1Gbps(4G最高实现10Mbps),峰值速度甚至达到10Gbps,数据形态主要是非结构化视频、半结构化上网数据等,对大数据技术要求更多是高容量非结构化视频存储、大批量数据并发计算等。因此,“增强移动宽带”场景对大数据产业的影响主要体现在以下方面:

√ “增强移动宽带”将促使大数据应用被催化。4G时代,大量App应用从云端接收的数据都是控制数据、小数据或非实时大数据,网络的瓶颈限制了大数据应用价值的发挥。5G时代,借助5G高带宽能力,大数据所承载的业务形式更加复杂多样,其商业价值将得到快速挖掘。比如VR,其可以在边缘云端快速完成图像数据的渲染,通过可靠的边缘计算中心实时返回给终端,提升业务获取性和体验提升。在华为发布的《5G时代十大应用场景白皮书》中,每项垂直行业应用都与5G高宽带下的大数据有关系,如AR、VR的实时计算机图像渲染和建模、无线家庭娱乐的超高清8K视频和云游戏、无线医疗的远程诊断、社交网络的超高清/全景直播等。

√ “高宽带”将驱动大数据与人工智能融合发展与落地。人工智能的发展离不开大数据,人工智能算法的实现需要借助庞大的数据量,人工智能技术应用过程中对数据传输与存储要求较为严格。4G时代,数据规模持续上升的同时,数据传输与存储压力较大;5G“高宽带”除了提升网速,更补齐了制约大数据与人工智能发展的短板,人工智能在5G环境下,可以提供更快的响应速度、更丰富的内容、更智能的应用模式及更直观的用户体验。

2.海量机器通信数据并发广

海量机器通信(massive Machine Type of Communication,mMTC),针对大规模物联网业务,更多的是人与物、物与物之间的通信。mMTC主要面向以传感和数据采集为目标的物联网等应用场景,具有小数据包、海量连接、更多基站间协作等特点,连接数将从亿级向千亿级跳跃式增长,要求承载网具备多连接通道、高精度时间同步、低成本、低功耗、易部署及运维等支持能力。

未来,物联网实现“万物互联”将成为5G发展的基础驱动力。5G海量物联网层面的需求包括节能、低复杂性以及远程控制,要求同时支持海量的物联网设备以低功耗接入网络,甚至可以实现100万个终端同时接入,支持每平方千米20万个终端大规模连接,支持海量机器设备并发数据采集,其数据形态主要是结构化传感器数据、非结构化图像声音等,对大数据技术要求主要是高并发数据存取、流式数据分析等。因此,5G海量机器通信场景(mMTC)对大数据产业的影响主要体现在以下三个方面。

(1)“万物互联”将促使数据量急剧增长。5G大连接导致单位面积内的联网设备成倍增加,使得单位时间内产生的数据量急剧增长,海量原始数据将被收集。5G通过提升连接速率(相对于4G提升100倍)和降低时延(ms级),在单位时间内创造的数据量将呈几何级地增加,比如从计费话单的角度看,如果维持50MB一条记录的存储模式,则计费话单条数在单位时间内会提升100倍。5G使得单位面积的联网设备数量可以达到4G的100倍,海量物联网的感知层将产生海量的数据,这都将极大地驱动数据量的增长。在可预见的未来,全球数据量将以每2年翻一番的速度增长。据IDC研究报告,2020年全球新建和复制的信息量将超过40ZB,这意味着地球上每个人每秒就将产生1.7MB的数据量。

(2)“万物互联”将促使数据维度和类型更加丰富。4G时代,数据多产生于人与人之间的互联;5G时代,物联网将得到较大程度的发展。人与物、物与物之间的连接将急剧增多,数据采集渠道将更加丰富,如自动驾驶、可穿戴设备、机器人等。数据类型将更加多样化,从连接的内容看,5G催生的车联网、智能制造、智慧能源、无线医疗、无线家庭娱乐、无人机等新型应用将创造新的丰富的数据维度,AR、VR、视频等非结构化数据的比例也将进一步增加。

(3)“万物互联”将推动大数据技术不断发展。一方面,数据量的膨胀与数据采集渠道的丰富,会对大数据存储技术与采集技术等提出更高要求;另一方面,随着数据量逐渐增多、数据类型越来越多样化、大数据应用场景越来越丰富等,海量、低时延、非结构化的数据特点,将对未来大数据行业的算力、实时引擎、数据处理引擎提出更高的要求,也将全面促进大数据分析与挖掘技术、可视化技术等的发展。

海量机器通信(mMTC)数据需求场景参见表1-2。

表1-2 mMTC数据需求场景

3.超可靠低时延通信数据实时性强

超可靠低时延通信(Ultra-Reliable and Low Latency Communications,URLLC),对于数据传输量、时延和可靠性的要求非常严格。典型应用包括工业控制、无人机控制、智能驾驶控制等,这类场景聚焦对时延极其敏感的业务,高可靠性是其基本要求。URLLC要面向车联网、工业控制等垂直行业的特殊应用,要求5G无线和承载具备超低时延和高可靠性等处理能力。其挑战主要来自网络能力,当前的网络架构和技术在时延保证方面存在不足,需要网络切片、低时延网络等新技术突破,承载面临芯片、硬件、软件、解决方案等全面挑战。

URLLC的应用场景包括工业应用和控制、交通安全和控制、远程制造、远程培训、远程手术等。工业自动化控制要求时延大约为10ms,这一要求在4G时代难以实现。而在自动驾驶方面,对时延的要求则更高,传输时延需要低至1ms,而且对安全可靠度的要求极高。

在URLLC的应用场景中,产生的数据形态主要是结构化工业数据、非结构化图像声音等,由于超低时延的应用诉求,对大数据技术要求主要是实时数据分析与处理、分布式内存计算、网络非结构化数据实时解析等。因此,5G“超可靠低时延通信”场景对大数据产业的影响主要体现在以下两方面。

(1)“超可靠低时延通信”将促进边缘计算技术的发展。边缘计算旨在将大量的数据分析功能下沉到更靠近应用的地方,从而提升响应速度,降低网络和云计算的成本。在数据处理端,5G“低时延”场景将会全面促进边缘计算的发展、提升数据处理的速度和保障数据的应用边界。IDC报告数据显示,5G时代下将有45%的物联网数据通过边缘计算进行存储、处理和分析,以此优化数据中心的工作流程。

(2)“超可靠低时延通信”将要求大数据实时性进一步提升。5G时代随着数据体量、种类和形式的爆发式增长,应用场景对实时性要求非常高,单一计算平台难以有效应对如此实时的数据采集和处理的挑战,大数据平台需要大幅提升低价值密度的高效计算与存储、网络非结构化数据的快速实时解析等能力,大数据平台的实时计算价值将进一步彰显。超可靠低时延通信(URLLC)具体数据需求参见表1-3。

表1-3 URLLC数据需求场景

1.1.2 5G网络架构对大数据的影响

1.SDN促进软件定义数据中心

5G时代广泛的场景需求对网络的吞吐量、连接及时延有不同的需求,承载的上层应用对网络的功能和性能也会有不同的要求,这使得运营商希望能够根据网络的负载以最经济、最匹配的方式为上层应用提供底层网络,也就是软件定义网络(SDN)。这一趋势推动了对企业数据中心更多的需求,随着软件定义网络、计算、存储等一系列技术的发展与成熟,使得承载大数据及其分析处理能力的基础设施也更加灵活,最终使得软件定义数据中心成为现实。

软件定义数据中心(Software-Defined Data Center,SDDC),是把数据中心所有传统、物理、硬件的资源进行虚拟化和软件化。软件定义数据中心抽象并自动化传统物理方面的所有计算、存储和网络,还可以将这种自动化和抽象用于增强安全性,它可以细分为SDN、SDC和SDS。如图1-1所示,软件定义网络(Software Defined Network,SDN)是网络虚拟化的一种实现方式。其核心技术OpenFlow通过将网络设备的控制面与数据面分离开来,从而实现了网络流量的灵活控制,使网络作为管道变得更加智能,为核心网络及应用的创新提供了良好的平台。软件定义计算(Software Defined Computing,SDC)是将计算资源,包括CPU和内存,从物理服务器上分离出来,重新组合分配,形成“虚拟机”。每一个应用程序及其对应的操作系统都被封装在一个相互隔离的虚拟机中。软件定义存储(Software Defined Storage,SDS)是指存储资源由软件自动控制,通过抽象、池化和自动化将标准服务器内的内制的存储(比如硬盘或者散存盘)、直连存储、外置存储甚至云存储等存储资源整合起来,然后实现应用感知,或者基于策略驱动的部署、变更和管理,达到的目标是存储即服务。

图1-1 基于软件定义数据中心的云计算基础架构

在5G网络中,SDN将得到广泛的推广,它将传统网络设备的数据平面和控制平面两个功能模块分离,通过集中式的控制器(controller)以标准化的接口对各种网络设备进行管理和配置。网络的控制带来了极大的灵活性,提供快速部署、更改、按需分配的可能,同时南向和北向接口的公开促进了设备的互联互通,使得控制部分和数据转发部分可以分别演进和部署,提高网络的灵活性和可扩展性,朝着控制功能集中化、虚拟化、转发功能标准化、可控化发展。这种网络架构为网络资源的设计、管理和使用提供更多的可能性,从而更容易推动网络的革新与发展。

2.NFV加速大数据功能虚拟化

在5G时代,网络功能虚拟化(Network Function Virtualization,NFV)是运营商实现云化组网的关键技术,即用软件来安装、控制、操作那些运行在通用硬件上的网络功能,融合了云和虚拟化技术,使得新一代网络业务拥有更好的伸缩性和自动化能力,欧洲通信标准协会(ETSI)发布的NFV标准架构如图1-2所示。随着容器化与微服务化的快速发展,数据中心IT系统呈现全域虚拟化的趋势,业务功能虚拟化(Business Function Virtualization,BFV)使得业务应用相关功能可以实现容器化微服务,并通过应用场景与NFV结合实现可编排能力。同理,数据功能虚拟化(Data Function Virtualization,DFV)也可以实现数据加工、查询及分析等各方面的能力,通过容器化部署及分布式数据的虚拟集成方式更加灵活地提供数据。通过NFV、BFV及DFV三者的有机结合,可以采用灵活编排的方式快速敏捷地支持数据驱动型在线应用开发。

图1-2 欧洲通信标准协会NFV标准架构

在5G网络中,NFV作为基础能力将加速上层技术功能的虚拟化,分层解耦NFV架构。分层解耦的NFV架构使得运营商网络更开放,业务部署更灵活,同时也带来多厂商、多接口、多功能域集成的挑战。运营商选择的最佳模式是厂商集成交付能力和网络灵活性间的平衡。未来通过云化NFV平台引入容器技术,容器技术是实现业务灵活编排和按需功能调用所必需的云化NFV平台能力。

3.Network Slicing按需定制5G网络服务

网络切片(Network Slicing)将在5G的实施中发挥关键作用,该技术允许网络运营商在单一的物理基础设施之上运行多个虚拟网络。网络切片就是将一个物理网络切割成多个虚拟的端到端的网络,每个虚拟网络之间,包括网络内的设备、接入、传输和核心网,是逻辑独立的,任何一个虚拟网络发生故障都不会影响其他虚拟网络。网络切片针对不同的应用场景提供最佳的性价比,作为支持数据驱动型应用的大数据能力也会根据应用场景的业务需求,结合网络切片的性能合理配置,有效地保障数据的实时性和可靠性。

SDN技术是针对EPC控制平面与用户平面耦合问题提出的解决方案,将用户平面和控制平面解耦从而使得部署用户平面功能变得更灵活,可以将用户平面功能部署在离用户无线接入网更近的地方,从而提高用户服务质量体验,比如降低时延。NFV技术是针对EPC软件与硬件严重耦合问题提出的解决方案,使运营商可以在那些通用的服务器、交换机和存储设备上部署网络功能,极大地降低时间和成本。SDN和NFV技术催生了5G核心网架构,如图1-3所示。

图1-3 按需配置的5G切片网络架构

4.边缘计算推动边云协同的实时数据分析

边缘计算(Mobile Edge Computing,MEC),是指在靠近物或数据源头的一侧,采用集网络、计算、存储、应用核心能力于一体的开放平台,就近提供最近端服务。其应用程序在边缘侧发起,产生更快的网络服务响应,满足行业在实时业务、应用智能、安全与隐私保护等方面的基本需求。边缘计算处于物理实体和工业连接之间,或处于物理实体的顶端。而云端计算仍然可以访问边缘计算的历史数据。边缘计算的兴起对大数据能力在网络云上的分布产生了重要的影响,云边协调的大数据处理与开发能力,及边缘数据分析能力都将成为重要的发展方向。

在云计算发展逐渐成熟的时代,为什么还会产生边缘计算?边缘计算会不会替代云计算?下面将从三个方面进行分析。

(1)网络带宽与计算吞吐量均成为云计算的性能瓶颈:核心云网具有超强的处理能力,满足海量数据处理的需求。但是,如何将海量的数据快速传送到云中心则成为业内的一个难题。网络带宽和计算吞吐量均是云计算架构的性能瓶颈,用户体验往往与响应时间呈反比。5G时代对数据的实时性提出了更高要求,部分计算能力必须进行边缘化及本地化处理,以简化在边缘的设备实时将全量数据传送至核心云网的过程。

(2)物联网时代数据量激增,对数据安全提出更高的要求:工业互联网将最终实现万物互联,这些智能设备会产生海量的数据。现阶段的核心云网算力无法实时、有效地处理这些海量数据,若将计算置于边缘节点则会极大缩短响应时间、减轻网络负载,有效地处理这些海量数据。此外,部分数据并不适合上云,留在终端则可以确保私密性与安全性。

(3)“低时延”场景要求将大数据实时处理要求进一步提升:5G时代随着数据体量、种类和形式爆发式增长,应用场景对实时性要求非常高,单一计算平台难以有效应对如此实时的数据采集和处理的挑战,大数据平台需要大幅提升低价值密度的高效计算与存储、网络非结构化数据的快速、实时解析等能力,大数据平台的实时计算价值将进一步彰显。

边缘计算与云计算之间并非替代关系而是互补协同的关系,如图1-4所示为云边协同的统一数据服务框架。边缘计算与云计算需要通过紧密协同才能更好地满足各种场景匹配,从而放大边缘计算及云计算的应用价值。边缘计算靠近边缘执行侧,更是云端所需高数据采集和初步处理单元,可以更好地支撑云端实时性和高并发的应用。反之,云计算通过大数据分析计算优化输出的算法模型可以下发到边缘侧,边缘计算基于新的算法规则进行优化运行。

图1-4 云边协同的统一数据服务框架

边缘计算技术满足行业数字化在敏捷连接、实时业务、数据优化、应用智能、安全与隐私保护等方面的关键需求。它可以作为连接物理世界和数字世界的桥梁,使能智能资产、智能网关、智能系统和智能服务。未来的运营商仅靠连接能力无法满足智能数字化时代的要求,未来电信价值将会向边缘移动。