上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人
2.4 聚类分析
与分类技术不同,在机器学习中,聚类是一种无指导学习。也就是说,聚类分析是在预先不知道欲划分类的情况下,根据信息相似度原则进行信息集聚的一种方法。聚类的目的是使得属于同一类别的个体之间的差别尽可能地小,而不同类别上的个体之间的差别尽可能地大。因此,聚类的意义就在于将观察到的内容组织成类分层结构,把类似的事物组织在一起。通过聚类,人们能够识别密集的和稀疏的区域,因而发现全局的分布模式,以及数据属性之间的有趣的关系。
数据聚类分析是一个正在蓬勃发展的领域。聚类技术主要是以统计方法、机器学习、神经网络等方法为基础。比较有代表性的聚类技术是基于几何距离的聚类方法,如欧氏距离、曼哈坦(Manhattan)距离、明考斯基(Minkowski)距离等。
聚类分析广泛应用于商业、生物、地理、网络服务等多种领域。例如,聚类可以帮助市场分析人员从客户基本库中发现不同的客户群,并能用不同的购买模式来刻画不同的客户群的特征,图2.6显示了一个城市内顾客位置的二维图,数据点的三个簇是显而易见的。聚类还可以从地球观测数据库中帮助识别具有相似土地使用情况的区域;以及可以帮助分类识别互联网上的文档以便进行信息发现;等等。
图2.6 一个城市内顾客位置的二维图