数字孪生技术与工程实践:模型+数据驱动的智能系统
上QQ阅读APP看书,第一时间看更新

2.2.3 大数据

1 大数据基本概念

大数据是信息技术高度发展的产物,互联网、物联网、移动计算等信息技术的不断发展和深入应用,产生了海量的数据。2013年,维克托·迈尔·舍恩伯格在《大数据时代:生活、工作与思维的大变革》一书中指出,大数据带来的信息风暴正在变革我们的生活、工作和思维,大数据开启了一次重大的时代转型。维克托认为,大数据的核心就是预测。这个核心代表着我们分析信息时的三个转变。第一个转变就是,在大数据时代,我们可以分析更多的数据,有时候甚至可以处理和某个特别现象相关的所有数据,而不再依赖于随机采样。第二个改变就是,研究数据如此之多,以至于我们不再热衷于追求精确度。第三个转变因前两个转变而促成,即我们不再热衷于寻找因果关系。该书的出版,引起了业界对大数据研究的热潮。

大数据还没有公认的定义,各个领域的专家从不同的角度对大数据进行了定义。研究机构Gartner给出了这样的定义。“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。大数据具有四个典型的特征:Volume(数据量大),Velocity(速度快),Variety(数据种类繁多),Value(数据价值大)。大数据的特征主要表现在四个层面:第一,数据体量巨大,所需要处理的数据从PB级别到EB级别,甚至是ZB级别;第二,数据增长速度快,对数据处理速度也要求快。当今社会,每时每刻都有大量数据被获取和存储。同时,只有快速处理才能有效利用其价值;第三,数据类型繁多,包括文字、图像、视频、地理位置信息等,涵盖结构化、半结构化和非结构化数据;第四,价值密度较低,但商业价值大。表面上看很多数据没有价值,但是通过大量数据的整合处理,可以挖掘出整体蕴藏着的巨大价值。

大数据的获取、传输和存储、分析和处理成为提高企业竞争力的关键因素。伴随着大数据处理技术的应用,“数据资源”成为很多企业或组织的一个新的资产,各行各业的决策从“业务驱动”变成了“数据驱动”,也催生了“数据驱动的建模方法”的应用。

针对大数据的特征,很多传统的数据分析处理技术不能适应大数据环境,例如,大数据的大量数据,给传统的软件和存储模式提出挑战;大数据的分布式、低价值密度、高价值也给软件架构提出新需求;大量异质的、非结构化的数据也给数据存储和处理方法提出新要求。大数据处理的关键技术包括数据采集和预处理、数据存储和管理、数据分析和挖掘。数据科学是伴随大数据发展的一门新兴的学科,深度学习方法的出现也为大数据处理提供了新的模式,并且也给大数据的应用提供了新的手段。

2 工业大数据

大量工业设备在其运行过程中,通过传感器、控制器等采集和处理了大量的数据。这些数据被有效地存储起来,形成了工业大数据。工业大数据作为对工业相关要素的数字化描述和在信息空间的映像,也符合大数据的4V特征,相对于其他类型的大数据,工业大数据还具有反映工业逻辑的多模态、强关联、高吞吐量等新特征。

多模态是指工业大数据反映工业系统多方面特征及其各方面要素,涉及工业领域中“光、机、电、液、气”等多学科、多专业信息化软件产生的不同种类的结构化和非结构化数据。比如三维产品模型文件不仅包含几何造型信息,还包含尺寸、工差、定位、材料等其他信息;同时,航空、轨道交通、化工等复杂产品对象的数据又涉及机械、电磁、流体、声学、热学、化学等多学科、多专业。

强关联反映的是工业的系统性及其复杂动态关系,包括两个方面:一个方面是工业系统加工处理对象和工业系统本身的关联,一个产品在加工过程会和工业系统发生关联,而由于产品组成复杂,组成产品的零件、部件和组件会和多个生产系统关联;另外一方面是指工业大数据会有明显的时效性,有时间序列关联,通过时间戳把多个传感器、多维度的感知数据关联起来,综合反映工业系统的状态。

高吞吐量即工业传感器要求瞬时写入超大规模数据。工业大数据来自传感器和工业软件,要满足实时感知,其监控频率高,会高速产生大量的数据。以风力机装备为例,根据IEC 61400-25标准,持续运转风力机的故障监测,其数据采样频率为50Hz,如果单台风力机每秒产生225KB传感器数据,按2万台风力机计算,全量采集则写入速率要求为4.5GB/s。总体而言,机器设备产生的时序数据的特点包括海量的设备与测点、数据采集频度高(产生速度快)、数据总吞吐量大、7×24h持续不断,呈现出“高吞吐”的特征[43]

3 大数据与数字孪生

数字孪生的特点是“模型+数据”,其区别于传统的仿真或者数字样机,就在于结合模型,数字孪生体能利用大数据处理技术,有效对物理实体运行所产生的大数据进行分析处理和治理。大数据采集和处理是数字孪生体能同步反映物理实体的基本要求。另外,数字孪生体能进行仿真和预测,需要对孪生体运行环境进行同步建模,这也需要采集物理实体运行过程的环境数据,利用大数据技术来构建虚拟环境,提高模型运行的真实性。

数字孪生应用中的监控、分析和预测功能,也离不开大数据分析和处理技术。