数据集群
- 集群 是相似数据的集合
- 聚类 是一种无监督学习
- 相关系数 描述了关系的强度。
集群
集群 是基于相似性的数据集合。
在图中聚在一起的数据点通常可以被分类成集群。
在下面的图中,我们可以区分出 3 个不同的集群
识别集群
集群可以包含许多有价值的信息,但集群有各种形状,那么我们如何识别它们呢?
主要方法有两种
- 使用可视化
- 使用聚类算法
聚类
聚类 是一种无监督学习。
聚类试图
- 将相似数据收集到组中
- 将不同的数据收集到其他组中
聚类方法
- 密度方法
- 层次方法
- 划分方法
- 基于网格的方法
密度方法 认为密集区域的点比低密度区域的点具有更多的相似性和差异。密度方法具有良好的准确性。它还具有合并集群的能力。
两种常见的算法是 DBSCAN 和 OPTICS。
层次方法 以树状结构形成集群。新的集群使用以前形成的集群形成。
两种常见的算法是 CURE 和 BIRCH。
基于网格的方法 将数据划分为有限数量的单元格,这些单元格形成网格状结构。
两种常见的算法是 CLIQUE 和 STING
划分方法 将对象划分为 k 个集群,每个分区形成一个集群。
一种常见的算法是 CLARANS。
相关系数
相关系数 (r) 描述了散点图上 x/y 变量之间的线性关系的强度和方向。
r 的值始终在 -1 到 +1 之间
-1.00 | 完美的下降趋势 | 负线性关系。 |
-0.70 | 强下降趋势 | 负线性关系。 |
-0.50 | 中等下降趋势 | 负线性关系。 |
-0.30 | 弱下降趋势 | 负线性关系。 |
0 | 没有线性关系。 | |
+0.30 | 弱上升趋势 | 正线性关系。 |
+0.50 | 中等上升趋势 | 正线性关系。 |
+0.70 | 强上升趋势 | 正线性关系。 |
+1.00 | 完美的上升趋势 | 正线性关系。 |
完美的上升趋势 +1.00:
完美的下降趋势 -1.00:
强上升趋势 +0.61:
没有关系: