摘 要:随着网络技术和数据存储技术的迅速发展,各个机构组织积累了大量的数据。从海量的数据中提取潜在的、有价值的信息成为一项巨大的挑战。聚类分析是数据挖掘的一种重要的方法,已经成功应用于各个领域。聚类分析应用于图像模式识别是十分有意义的事情,本文对图形聚类分析方法进行了研究。
关键词:聚类分析;图形分割
一、聚类简介
聚类问题不需要任何先验知识,它事先不了解一批样本中的每一个样本的类别,根据样本的特性进行分类。利用样本的特性来构造分类器,这种分类器称为无监督分类,通常叫做聚类或者集群。
聚类分析是对探测数据进行分类与分析的一个工具,在许多学科中,需要根据所测得的或感知到的相似性对数据进行分类,这样,探测数据就被归入到各个聚合类中。值得一提的是,同一个聚合类中的样本比不同聚合类中的样本模式更相似,这样就便于决策者对不同聚合类中的关联关系作出评估。我们可以应用聚类分析的结果对数据提出初始假设,分类新数据,测试数据的同类型及压缩数据。
聚类算法的核心是把特征相似的聚合类寻找出来。人类思维是二维的最佳分类器,然而在现实问题中,许多问题涉及到高维的聚类。要想对高维空间内的数据进行直观的解释,困难显而易见。另外,现实中的数据并不会呈现规则的理想结构,因次,许多学者对大量的聚类算法进行了深入的研究。
在图像聚类分析中,一幅图像通常含有多个物体,因此就需要对不同的物体进行分割标识。因此,要想对不同的物体进行归类,必须做到以下几点:
了解聚类的基本概念;
对图像中的各个物体进行分割,找出各个物体并且对物体进行标识;
对图像中的各个物体进行相应的测量,比如物体的周长、面积等,从而提取物体的特征;
根据物体的特征,用聚类算法进行相似性分析,然后进行归类。
二、聚类的定义
Evertt学者对聚合类提出了一种定义,他认为一个聚合类就是一些相似的实体集合,而且不同聚合类的实体是不相似的。在一个聚合类中的两个点之间的距离小于在这个类内任一点和不在这个类内的任一点间的距离。聚合类可以被描述成在d维空间内存在较高密度点的连续区域和较低密度点的区域,而较低密度点的区域可以把较高密度点的区域分开。
三、聚类准则
设有未知类别的N个样本,要把它们划分到M类中去,可以有多种聚类准则来确定。但是从客观角度来说,聚类的优劣是根据某一种评价准则而言的,换句话说,不是每种聚类方法在所有的评价准则中都能表现出优良的特性。
通常,有两种方法用于确定聚类准则。一是经验,即根据具体的分类问题确定聚类准则,以此来判断样品分类是否合理。例如,用距离函数作为相似性的度量,通过不断修改阈值来判断此种准则的满意程度。另一种方法是定义一种准则函数,其函数值与样品的划分有关,当函数值取得极小值的时候,我们认为得到了最佳划分。最简单而又常用的准则是误差平方和准则。
设有N个样品,分别属于类,设有个样品的类,其均值为:
(公式3-1)
由于有很多方法可以将N个样品划分到M类中去,因此,对于每种划分都可以求得一个误差平方和J,要找到使J值最小的一种划分。
定义误差平方和如下:
(公式3-2)
经过大量的实验表明,当各类样品的分布很密集的时候,各类样品的个数相差不大,而当类间距离很大时,适合采用误差平方和准则,如图3.1所示。而当样品数目相差很大时,样品类间距离较小时,就有可能将样品数多的一类一分为二,而得到的误差平方和J值却比大类保持完整时小,这样的情况下,就误以为得到了最优划分,而实际上也得到了错误的划分。
四、图像阈值分割
阈值处理是一种图像区域分割技术,其主要利用灰度根据主观愿望分成两个或者多个等间隔或者不等间隔的灰度区间,它主要是利用图像中要提取的目标物体的和背景在灰度上的差异,选择一个合理的阈值,确定图像中该像素点是属于目标区还是属于背景区是通过判断图像中的每一个像素点的特征属性是否达到阈值来实现的。这种方法产生二值图像,对强对比景物的分割特别有用。而且计算起来直观简单,能用封闭而且联通的边界定义不交叠的区域。
在使用阈值法进行图像分割时,阈值的正确选取是图像能否正确分割的关键所在。由于物体和背景以及不同的物体之间有明显的灰度级差别,因此,在图像的灰度级直方图中会呈现明显的峰值。当这个峰型分布明显时,以谷底作为门限候选值。
在聚类分析中,一幅图像中通常含有多个物体,要想对图像中的物体进行分类,必须先找到各个物体,让计算机识别它们,因此,首先要先确定图像中的物体是否是独立的目标物体,图像中有几个物体,这个过程成为图像标识。
五、聚类分析方法
通常用到的聚类分析方法有如下几类:
1)基于试探的未知类别聚类算法:最邻近规则试探法;最大最小距离算法。
2)层次聚类算法:最短距离法;最长距离法;中间距离法;重心法;类平均距离法。
3)动态聚类算法:K均值算法;迭代自组织的数据分析算法(ISODATA)
参考文献:
[1] 王家文,李仰军.MATLAB 7.0图形图像处理[M].北京:国防工业出版社.2006.
[2] 李立志.基于聚类分析的图像分割和识别[D].长沙:湖南大学.2005
[3] 郭海湘,诸克军.基于模糊C-均值算法和遗传算法的新聚类方法[J].华南理工大学学报.2004,32(10):93-97
中国论文网(www.lunwen.net.cn)免费学术期刊论文发表,目录,论文查重入口,本科毕业论文怎么写,职称论文范文,论文摘要,论文文献资料,毕业论文格式,论文检测降重服务。