1.4 主要研究内容和技术路线
已有的关于畜禽健康养殖环境监测与控制系统的研究还不够深入,所谓的预警也只是针对瞬时值的预警,未考虑瞬时值为噪声情况会带来误操作的影响,导致预测结果不准确,归根结底是缺乏对于数据流采集到的数据信息进行全面的、深层次的挖掘分析,这从某种程度上制约了农业的发展。基于此,本书从研究数据流的特性出发,对于传感器采集到的数据流进行分类,通过改进的双层框架结构实现对数据流概要结构的在线存储,用户可后期采用离线宏聚类,将聚类中异常的结果通过追溯进一步分析,查找数据流异常的源头;设计了基于不同时间粒度的自适应调整灰色预测模型,实现数据流的实时动态预测。为了帮助用户更好地了解系统状态、控制系统,对猪舍环境数据流采集与监控系统进行建模和分析,保障了设计的猪舍环境监控系统的科学性、准确性、实时性,有利于指导农业高效、有序地向前发展。
在数据流的预处理阶段,由于大数据具有价值大、密度低的特点,因此,聚类分析的结果对于进一步分析数据的特征尤为重要。智慧农业中,无线传感网采集到源源不断的数据流,为了更好地分析这些数据流所监测的畜禽养殖环境状态等各个因素之间的内在联系,有必要对数据流进行聚类,然后,在聚类的基础上进行数据分析,开展下一步的研究工作。在数据流的聚类方面,目前的数据流聚类在概要结构设计和时间的演化分析上并不完善,较难发现时间维度上的聚簇问题。此外,对于连续型随机变量的输入,现有方法未考虑存储空间的影响,造成数据存储空间的海量增长,因此,需要研究新的聚类方法。
在数据流的集成阶段,由各个环节产生各种数据流,为了研究同一属性或不同属性的数据流的特征,不可避免地会出现数据流的混合和重组,在实验完成时向用户提供最终结果。由于数据流的快速、实时等特征,传统的最小可追溯单元在此种情况下无法一一标注,这会导致追溯信息采集中的断层问题。各环节所产生的不确定性不断传递、放大,这都极大地影响最终查询结果的质量,一旦最终结果出错,对于实验中间过程产生的数据流的混合和重组的关键信息,现有的追溯系统是无法在数据流背景下快速进行动态追溯的。这对后面的追溯带来了一定的难度。研究大数据背景下的数据流的产生,并随时间推移而演化的整个过程,从而以较高效率去追踪不同数据流间和同一数据流内部数据的不确定性的来源和演化过程,是农业大数据研究要解决的课题。
在数据流的分析阶段,设计实时预测算法对监测的有害气体浓度等数据流未来发展趋势进行实时预测,系统人员可以根据预测结果确定在未来一段时间内,是否会发生异常事件,及时采取相应措施进行调控,将损失降低到最小。智慧农业中无线传感网采集到的数据流来源众多,数据流实时处理的要求又使系统不能进行磁盘存取。多数情形下,人们为满足数据流实时性的要求,只需获得近似结果即可,这就导致了预测的结果并不总是尽如人意。此外,数据流随时间的变化而变化,数据特征未知,而且往往是非单调分布的,因此,到目前为止,没有一种通用的数据流预测模型。在实际应用中,往往是根据需求进行相关的设计和分析,有必要开展数据流上的专用预测模型的研究。
在以上研究的基础上,为了加深用户对系统状态的了解,更好地控制系统,考虑计算过程和物理过程通过网络实时交互对系统行为所带来的影响,先对系统进行数据流下的扩展建模和实例分析,设计一个面向养殖环境的猪舍数据流采集与预测为一体的自动化控制系统,最终将前面的研究应用于系统中,实现了对猪舍养殖环境的监测,既为猪舍养殖提供自动监测手段,也为控制智能化和管理科学化提供依据。
本书的技术路线图如图1-1所示。
图1-1 研究技术路线图