工业大数据工程:系统、方法与实践
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

1.3.4 数据技术视角

在工业领域,大数据量经常出现在时序数据(传感器)、仿真数据、多媒体数据(视频监控、图像检测等)等类型的数据上,而不同类型的数据通常需要不同的存储和管理技术。另外,很多工业数据质量要求与应用场景密切相关。同样一个传感器时序数据,在生产分析前,异常值和噪声需要滤除,但对于传感器健康分析,异常值反而是最重要的特征量。这造成数据质量或数据治理没有统一的方法,很难事前完备枚举,最好按需治理,通过单点突破快速迭代,实现数据资源化。这些都构成了工业大数据湖的特点。

原始数据是为满足特定业务应用目的而收集的,不一定完全满足工业大数据的建模需求,而工业物理对象的分析通常需要跨越多个数据集,这时需要一套建模和查询优化技术,以提高工业大数据访问的便捷性。

在现实中,工业大数据的维度在很多时候并不完备。数字孪生是追求的理想目标,但现实中因为测量技术、测量成本及存储成本等原因,很多状态没有监测,很多历史数据没有留存;因为认知和管理水平有限,有些关键要素没有纳入数据采集体系,关键结果缺乏标记。这些都需要依赖专业知识来弥补,如何有效捕获专家知识和经验,如何将这些专家知识与数据模型、机理模型融合,都是工业大数据分析的重要课题。

另外,大数据建模也不是要求所有数据完备后才能开始。数据收集是有成本的,通常只需要提供数据分析或业务应用所需的关键指标即可。例如,风力发电机组的风功率曲线的主要影响因素如图1-7所示,除风机故障、启停机、限功率及大偏航等典型工况外,空气密度(季节)、机组对风偏差、风速仪测量误差、叶片对零偏差、风剪切梯度(地形、遮挡物)、湍流强度及叶片气动性能等因素都会影响机组功率。但对于一般的风功率曲线分析,并不要求所有的要素,通常仅基于风力发电机组的状态监测数据进行,包括风况、工况和典型控制动作等信息,环境、设计与安装要素只有到细节问题才引入。很多工业问题是一个复杂系统问题,但只要数据能够反映关键要素,在工程上就可以尝试,避免“不可认知论”,这并不违背系统论的整体观。

图1-7 风功率曲线的主要影响要素

对于行业数据分析是否应该了解机理这个问题,一直存在争论。从应用推广的角度,不需要了解机理,这样分析技能更容易复制。但我们一直坚持在分析前,尽量整理出问题的系统动力学图(在当前认知水平下)。虽然很多要素(例如,瞬态空气动力学、安装瑕疵等)并不是大数据技术可以解决的,但至少知道了问题的全貌。另外,将隐性要素明确定义出来,也为持续探索创新奠定了基础,避免了低层次的重复徘徊。古代朴素唯物主义哲学思想虽然强调对自然界整体性、统一性的认识,却缺乏对这一整体各个细节的认识能力,因此对整体性和统一性的认识也是不完全的[20]。系统思维既将相互联系的要素联合为一个统一体,同样又将系统对象分解为要素,没有深入的分析就没有良好的结果。