数据聚类
- 聚类是相似数据的集合
- 聚类是一种无监督学习
- 相关系数描述了关系的强度。
聚类
聚类是基于相似性的数据集合。
图上聚集在一起的数据点通常可以归类到不同的聚类中。
在下面的图中,我们可以区分出 3 个不同的聚类
识别聚类
聚类可以包含大量有价值的信息,但聚类的形状千差万别,我们该如何识别它们呢?
两种主要方法是
- 使用可视化
- 使用聚类算法
聚类
聚类是一种无监督学习。
聚类试图
- 将相似的数据分组
- 将不相似的数据归入其他组
聚类方法
- 密度法
- 层次法
- 划分法
- 基于网格法
密度法认为密集区域的点比低密度区域的点具有更多的相似性和差异性。密度法具有较高的准确性。它还能合并聚类。
两种常用算法是 DBSCAN 和 OPTICS。
层次法以树状结构形成聚类。新聚类是使用先前形成的聚类来创建的。
两种常用算法是 CURE 和 BIRCH。
基于网格法将数据构造成有限数量的单元格,形成网格状结构。
两种常用算法是 CLIQUE 和 STING
划分法将对象划分为 k 个聚类,每个分区形成一个聚类。
一种常用算法是 CLARANS。
相关系数
相关系数 (r) 描述了散点图上 x/y 变量之间线性关系的强度和方向。
r 的值总是在 -1 和 +1 之间
-1.00 | 完美下坡 | 负线性关系。 |
-0.70 | 强下坡 | 负线性关系。 |
-0.50 | 中等下坡 | 负线性关系。 |
-0.30 | 弱下坡 | 负线性关系。 |
0 | 无线性关系。 | |
+0.30 | 弱上坡 | 正线性关系。 |
+0.50 | 中等上坡 | 正线性关系。 |
+0.70 | 强上坡 | 正线性关系。 |
+1.00 | 完美上坡 | 正线性关系。 |
完美上坡 +1.00:
完美下坡 -1.00:
强上坡 +0.61:
无关系: