物联网追溯系统及数据处理
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

2.2 研究现状及存在的问题

目前,对数据流的研究大多是基于离散型随机变量模型开展的,针对连续型随机变量模型的研究相对较少,主要是由于前者更利于计算机存储和运算。

在数据流聚类研究方面,杨宁等提出了一种基于时态密度的倾斜分布数据流聚类算法,该算法只能处理欧氏空间单数据流,但在实际应用中,分布式环境下多数据流相互影响,相互作用,越来越多的数据流存在于非欧氏空间。陈华辉等利用数据流的遗忘特性来对数据流进行压缩,建立一个比整个数据流的数据规模小得多的概要数据结构来保存数据流的主要特征,提出了基于小波概率的并行数据流聚类,损失了数据的准确度。张晨等主要面向含存在级不确定性的不确定数据流的聚类问题,提出了一种不确定数据流聚类算法—EMicro 算法。公茂果等提出了复杂分布数据的二阶段聚类算法,该算法主要适用于复杂分布的静态数据聚类问题。朱林等针对静态的文本和基因等高维数据,利用模糊可扩展聚类框架,与熵加权软子空间聚类算法相结合,提出了一种基于数据流的软子空间聚类算法。屠莉等提出基于相关分析的多数据流聚类算法。该算法将多数据流的原始数据快速压缩成一个统计概要,根据这些统计概要,通过增量式计算相关系数来衡量数据间的相似度,提出了一种能够动态、实时地检测数据流的发展变化,从而调整聚类数目的改进的 k-均值算法来生成聚类结果。郭昆等针对空间上相近的数据流其相似性不一定高的特点,指出欧氏距离测度的非普适性,并提出一种基于灰关联分析的多数据流聚类方法。该方法定义了将多个数据流的原始数据压缩成可增量更新的灰关联概要,通过计算多个数据流间的相似度从而进行聚类,但算法在运行效率和灵活性上存在不足。于彦伟等提出一种基于密度的空间数据流在线聚类算法,该算法是在DBSCAN算法基础上的改进,对空间点邻域范围半径和最小邻域点阈值进行了定义,给出了在线聚类的形式化描述,提出了OLDStream全局在线聚类算法,但算法对输入参数具有很大程度的依赖性。

国外Asbagh等提出了一种基于特征的数据流聚类算法,首先,该算法根据聚类的紧凑程度和独立性来对其特征进行排名,然后,使用自动算法识别出不重要的特征,并将其从数据集中移除。在聚类的过程中,这两个步骤持续不断地进行,实现数据流的聚类,但该算法目前还不能用于基于密度的聚类上,需要改进。Fathzadeh等研究了一种集成学习的数据流聚类方法来提取位置数据流的典型特征,提出了一种由三个阶段组成的数据流集成模糊 C 均值算法,先将数据流分成小块,使用集成聚类算法聚类每个块,结合结束的划分提取出相对的划分。Khalilian 等概述了数据流聚类算法的几个方面:第一,在数据流聚类算法普遍存在的问题方面,有几个突出的解决方案,用以解决不同的问题;第二,基本方法的几种不同的假设(启发式和直觉式),最后提出了一个新的数据流聚类算法框架及其在这一领域研究中存在的具体困难,指出数据流聚类中的主要问题是数据只能被访问一次,要实时识别出概念漂移。Albertini等研究了数据流聚类属性的形式及其算法分析,指出了当前的聚类程序在应用到数据流时有严重的局限性,因为程序命令是由无限的数据采集和数据流行为的变化所驱动的。尽管数据流与传统数据存在无限、无序的本质区别,但是研究忽略了数据流的动态性和瞬时性,制约了人们对数据流的正确认识,对数据流缺乏理论分析,于是作者提出了基于集合论的形式化方法。Silva 等写了一篇综述文章,通过对数据流聚类算法做了一个调查,指出数据流聚类中面临的几个挑战性问题的解决方法,譬如以在线的方式处理非静态的无限到达的数据流。数据流的内在本质要求设计的算法能够快速和增量式地处理数据对象,满足时间和内存限制的需求。对数据流聚类的应用领域进行了介绍,并在文末探讨了数据流未来可进行研究的方向。Khalilian 等对数据流聚类中的问题与挑战进行了阐述,指出聚类技术可以使人们发现隐藏的信息,文章主要从三个方面进行了阐述:一是数据流聚类的定义;二是在数据流聚类这个研究领域遇到的具体困难;三是各种不同的基本方法的假设形式及处理这些问题的显著性方案。Oyana等研究了一种基于离散的余弦变换的数据流聚类方法,利用余弦对数据流进行变换,采用基于网格和密度的算法用于估计数据流的分布,从而发现任意形状的簇聚类。Cho等设计了一个数据流聚类框架,支持高效的数据流媒体应用软件的归档,该方法可以显著降低插入和检索数据的磁盘访问次数。Aggarwal等提出的UMicro算法,该算法比较经典,包含了如下关键技术:第一,模型使用了在线形成微簇和离线处理微簇的两步处理的方法,实现了对数据流高效处理,数据流动态到达,聚类算法动态更新聚类中间过程的产物微簇;第二,模型考虑了数据流中的时间属性,提出了时间演化数据流聚类的概念,提供了不同时间片段的聚类结果对比;第三,聚类方法简单,可以保存概要数据,有利于用户后期对不同时间段的历史数据进行离线聚类处理,能识别出孤立点。后续其他研究工作,如SdStream聚类算法的提出,以及基于密度的数据流聚类算法DenStream对数据进行挖掘,也都是在此基础上的改进。

Graham等利用抽样和直方图操作,针对连续型随机变量模型提出了多种基本算法,但该模型面临的主要问题在于误差累积,导致最终结果可能不精确。使用连续型随机变量表示数据流中的数据,相对于离散型模型,与真实世界更接近。这类研究中,较为经典的是CLARO项目中使用的不确定数据流模型,它使用高斯混合模型描述不确定数据流中的不确定数据(也称为概率数据)。高斯混合模型是一种连续型概率分布模型,其概率密度分布理论上可以无限地近似其他分布,同时,其占用存储空间较小,可以方便地表示数据。高斯混合模型具有较好的数学特性,其线性特性得到了证明,并被作为概要结构来存储数据流概要。

以上的算法都有其各自应用的局限性,本书算法主要考虑存储空间的影响及项目实际需求中能查找任意时间维度的聚簇,并且能确定聚簇的时间范围。

目前存在的问题如下:由于数据流的体量巨大,而存储空间有限的制约,对数据流中的数据不能像传统数据那样在后台数据库中进行存储,需要一种节省空间的新型簇表示法对数据流中的数据来进行实时存储;当分布特征较为复杂或当精度要求很高时,往往需要存储较多的数据点才能刻画出分布特征,从而导致存储空间成倍增长;数据流聚类在概要结构设计和时间的演化分析上并不完善,较难发现时间维度上的聚簇。在猪舍环境监控系统中,上述问题同样存在,如何解决上述问题,是当前数据流聚类中的首要任务。