菜单
×
   ❮     
HTML CSS JAVASCRIPT SQL PYTHON JAVA PHP HOW TO W3.CSS C C++ C# BOOTSTRAP REACT MYSQL JQUERY EXCEL XML DJANGO NUMPY PANDAS NODEJS R TYPESCRIPT ANGULAR GIT POSTGRESQL MONGODB ASP AI GO KOTLIN SASS VUE DSA GEN AI SCIPY AWS CYBERSECURITY DATA SCIENCE
     ❯   

数据聚类

  • 聚类是相似数据的集合
  • 聚类是一种无监督学习
  • 相关系数描述了关系的强度。

聚类

聚类是基于相似性的数据集合。

图上聚集在一起的数据点通常可以归类到不同的聚类中。

在下面的图中,我们可以区分出 3 个不同的聚类


识别聚类

聚类可以包含大量有价值的信息,但聚类的形状千差万别,我们该如何识别它们呢?

两种主要方法是

  • 使用可视化
  • 使用聚类算法

聚类

聚类是一种无监督学习

聚类试图

  • 将相似的数据分组
  • 将不相似的数据归入其他组

聚类方法

  • 密度法
  • 层次法
  • 划分法
  • 基于网格法

密度法认为密集区域的点比低密度区域的点具有更多的相似性和差异性。密度法具有较高的准确性。它还能合并聚类。
两种常用算法是 DBSCAN 和 OPTICS。

层次法以树状结构形成聚类。新聚类是使用先前形成的聚类来创建的。
两种常用算法是 CURE 和 BIRCH。

基于网格法将数据构造成有限数量的单元格,形成网格状结构。
两种常用算法是 CLIQUE 和 STING

划分法将对象划分为 k 个聚类,每个分区形成一个聚类。
一种常用算法是 CLARANS。



相关系数

相关系数 (r) 描述了散点图上 x/y 变量之间线性关系的强度和方向。

r 的值总是在 -1 和 +1 之间

-1.00完美下坡负线性关系。
-0.70强下坡负线性关系。
-0.50中等下坡负线性关系。
-0.30弱下坡负线性关系。
0无线性关系。
+0.30弱上坡正线性关系。
+0.50中等上坡正线性关系。
+0.70强上坡正线性关系。
+1.00完美上坡正线性关系。

完美上坡 +1.00:

完美下坡 -1.00:

'

强上坡 +0.61:

无关系:


×

联系销售

如果您想将 W3Schools 服务用于教育机构、团队或企业,请发送电子邮件给我们
sales@w3schools.com

报告错误

如果您想报告错误,或想提出建议,请发送电子邮件给我们
help@w3schools.com

W3Schools 经过优化,旨在方便学习和培训。示例可能经过简化,以提高阅读和学习体验。教程、参考资料和示例会不断审查,以避免错误,但我们无法保证所有内容的完全正确性。使用 W3Schools 即表示您已阅读并接受我们的使用条款Cookie 和隐私政策

版权所有 1999-2024 Refsnes Data。保留所有权利。W3Schools 由 W3.CSS 提供支持