肿瘤康复网,内容丰富有趣,生活中的好帮手!
肿瘤康复网 > 【数据挖掘】基于方格的聚类方法 ( 概念 | STING 方法 | CLIQUE 方法 )

【数据挖掘】基于方格的聚类方法 ( 概念 | STING 方法 | CLIQUE 方法 )

时间:2021-10-03 04:13:46

相关推荐

文章目录

I . 基于方格的聚类方法 简介II . 基于方格的聚类方法 图示III . STING 方法IV . CLIQUE 方法

I . 基于方格的聚类方法 简介

1 . 基于方格的聚类方法 :

① 数据结构 划分 :将 多维数据 空间 , 划分成一定数目的单元 ;

② 数据结构 操作 :在上述 划分好的 数据单元 数据结构 上 , 进行聚类操作 ;

2 . 基于方格聚类方法 优缺点 :

① 优点速度快 :聚类速度很快 , 其聚类速度 与 数据集样本个数无关 , 与划分的单元个数有关 ;

② 缺点准确率低 :聚类的准确率会大大降低 , 划分的方格越大 , 准确率越低 , 但速度越快 ;

3 . 如 :有 111 亿数据 , 如果按照样本数量进行聚类很慢 , 如果将其划分成 100100100 个聚类 , 相当于划分成了 100100100 个数据单元 , 其速度相当于 100100100 个样本进行聚类 , 速度很快 ;

II . 基于方格的聚类方法 图示

如下图的二维空间 , 二维空间中分布着 100100100 个点 , 将其划分成 999 个方格 , 然后对 999 个方格进行聚类 , 不再考虑对样本进行聚类了 ;

999 个方格 , 将每个方格当做一个 样本对象 , 进行聚类分组 ;

III . STING 方法

1 . STING 方法 简介 :

① 全称 :STING , Statistical Information Grid , 统计信息网格,是一种 多分辨率聚类技术;

② 划分方格 :将数据空间 划分成矩形区域 ;

③ 划分分辨率 :不同层次的 矩形方格 划分成的 数据单元 , 其分辨率不同 ;

④ 层次结构 :这些 不同分辨率 的 数据单元 , 构成层次结构 , 如下示例 , 绿色的矩形 ( 数据单元 ) 中 , 包含紫色的 矩形 ( 数据单元 ) ;

2 . 单元统计 :

① 统计信息 :每个单元 都有 数据统计信息 , 如 单元所有样本的 平均值 , 最大值 , 最小值 , 数据分布 等数据 ;

② 预先计算 :统计信息需要预先计算出来 , 供之后的聚类操作使用 ;

③ 聚类分组 :根据每个 数据单元 的统计信息 , 为 数据单元 进行 聚类分组 ;

IV . CLIQUE 方法

1 . CLIQUE 方法 :是 基于密度 和 基于方法 结合后的算法 ;

① 划分 方格 :将多维 数据集 样本 , 在 多维数据空间 中 , 划分成 互不相交 的矩形单元 , 这些单元之间互相不能覆盖 ;

② 密集单元 :如果 某个 数据单元 的样本个数 大于 一个阈值 , 这个 数据单元 就是 密集单元 ;

③ 阈值 :这个阈值一般是开始时 , 用户输入的参数 ;

④ 聚类 :密集单元 相互连接 构成一个集合 , 就是一个聚类分组 ;

2 . CLIQUE 算法优点 :

① 性能高 :CLIQUE 算法可以 找出 具有 高密度 数据样本 对象所在的数据单元 ,

② 扩展性好 :这些数据的 输入顺序 , 数据的分布 , 不会影响最终的数据分布 ;

3 . CLIQUE 算法缺点 :聚类的准确度较低 :

如果觉得《【数据挖掘】基于方格的聚类方法 ( 概念 | STING 方法 | CLIQUE 方法 )》对你有帮助,请点赞、收藏,并留下你的观点哦!

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。