菜单
×
   ❮     
HTML CSS JAVASCRIPT SQL PYTHON JAVA PHP HOW TO W3.CSS C C++ C# BOOTSTRAP REACT MYSQL JQUERY EXCEL XML DJANGO NUMPY PANDAS NODEJS R TYPESCRIPT ANGULAR GIT POSTGRESQL MONGODB ASP AI GO KOTLIN SASS VUE DSA GEN AI SCIPY AWS CYBERSECURITY DATA SCIENCE
     ❯   

Pandas - 数据相关性


寻找关系

Pandas 模块的一个强大之处在于 corr() 方法。

corr() 方法计算数据集中每列之间的关系。

本页的示例使用了一个名为 'data.csv' 的 CSV 文件。

下载 data.csv。 或者 打开 data.csv

示例

显示列之间的关系

df.corr()
自己动手试一试 »

结果

            Duration     Pulse  Maxpulse  Calories
  Duration  1.000000 -0.155408  0.009403  0.922721
  Pulse    -0.155408  1.000000  0.786535  0.025120
  Maxpulse  0.009403  0.786535  1.000000  0.203814
  Calories  0.922721  0.025120  0.203814  1.000000

注意: corr() 方法会忽略“非数字”列。

结果解释

corr() 方法的结果是一个包含大量数字的表格,这些数字表示两列之间的关系有多紧密。

该数字的范围从 -1 到 1。

1 表示 1 对 1 的关系(完美相关),对于这个数据集,第一列的值增加时,另一列的值也随之增加。

0.9 也是一个很好的关系,如果您增加一个值,另一个值很可能也会增加。

-0.9 的关系和 0.9 一样好,但如果您增加一个值,另一个值很可能反而会下降。

0.2 表示关系不好,这意味着如果一个值增加,另一个值不一定会跟着改变。

什么是好的相关性? 这取决于具体用途,但我认为可以安全地说,您至少需要 0.6(或 -0.6)才能称之为好的相关性。

完美相关

我们可以看到,“Duration”和“Duration”得到了 1.000000 这个数字,这是有意义的,每一列本身总是与自己有完美的关系。

良好的相关性

“Duration”和“Calories”之间有 0.922721 的相关性,这是一个非常好的相关性,我们可以预测,您锻炼的时间越长,燃烧的卡路里就越多,反之亦然:如果您燃烧了很多卡路里,您可能进行了一次长时间的锻炼。

糟糕的相关性

“Duration”和“Maxpulse”之间有 0.009403 的相关性,这是一个非常糟糕的相关性,这意味着我们不能仅通过锻炼时长来预测最大脉搏数,反之亦然。



w3schools CERTIFIED . 2022

获得认证!

完成 Pandas 模块,完成练习,参加考试,您将获得 w3schools 认证!

$10 注册

×

联系销售

如果您想将 W3Schools 服务用于教育机构、团队或企业,请发送电子邮件给我们
sales@w3schools.com

报告错误

如果您想报告错误,或想提出建议,请发送电子邮件给我们
help@w3schools.com

W3Schools 经过优化,旨在方便学习和培训。示例可能经过简化,以提高阅读和学习体验。教程、参考资料和示例会不断审查,以避免错误,但我们无法保证所有内容的完全正确性。使用 W3Schools 即表示您已阅读并接受我们的使用条款Cookie 和隐私政策

版权所有 1999-2024 Refsnes Data。保留所有权利。W3Schools 由 W3.CSS 提供支持