机器学习 - 多重回归

多重回归

多重回归类似于线性回归，但具有多个自变量，这意味着我们尝试基于两个或多个变量来预测一个值。

请看下面的数据集，它包含了一些关于汽车的信息。

汽车	Model	音量	Weight	CO2

丰田	Aygo	1000	790	99
Mitsubishi	Space Star	1200	1160	95
Skoda	Citigo	1000	929	95
Fiat	500	900	865	90
迷你	Cooper	1500	1140	105
VW	Up!	1000	929	105
Skoda	Fabia	1400	1109	90
奔驰	A-Class	1500	1365	92
福特	Fiesta	1500	1112	98
奥迪	A1	1600	1150	99
Hyundai	I20	1100	980	99
Suzuki	Swift	1300	990	101
福特	Fiesta	1000	1112	99
本田	Civic	1600	1252	94
Hundai	I30	1600	1326	97
Opel	Astra	1600	1330	97
宝马	1	1600	1365	99
Mazda	3	2200	1280	104
Skoda	Rapid	1600	1119	104
福特	Focus	2000	1328	105
福特	Mondeo	1600	1584	94
Opel	Insignia	2000	1428	99
奔驰	C-Class	2100	1365	99
Skoda	Octavia	1600	1415	99
沃尔沃	S60	2000	1415	99
奔驰	CLA	1500	1465	102
奥迪	A4	2000	1490	104
奥迪	A6	2000	1725	114
沃尔沃	V70	1600	1523	109
宝马	5	2000	1705	114
奔驰	E-Class	2100	1605	115
沃尔沃	XC70	2000	1746	117
福特	B-Max	1600	1235	104
宝马	2	1600	1390	108
Opel	Zafira	1600	1405	109
奔驰	SLK	2500	1395	120

我们可以根据发动机尺寸预测汽车的 CO2 排放量，但通过多重回归，我们可以引入更多变量，例如汽车的重量，以使预测更准确。

它是如何工作的？

在 Python 中，我们有模块可以为我们完成工作。首先导入 Pandas 模块。

import pandas

在我们的 Pandas 教程中了解 Pandas 模块。

Pandas 模块允许我们读取 csv 文件并返回 DataFrame 对象。

该文件仅用于测试目的，您可以在此处下载：data.csv

df = pandas.read_csv("data.csv")

然后，将自变量列入一个名为 X 的列表中。

将因变量放在一个名为 y 的变量中。

X = df[['Weight', 'Volume']] y = df['CO2']

提示： 通常将自变量列表命名为大写 X，将因变量列表命名为小写 y。

我们将使用 sklearn 模块中的一些方法，所以我们也需要导入该模块

from sklearn import linear_model

从 sklearn 模块中，我们将使用 LinearRegression() 方法来创建一个线性回归对象。

该对象有一个名为 fit() 的方法，它接受自变量和因变量作为参数，并用描述关系的数据填充回归对象。

regr = linear_model.LinearRegression() regr.fit(X, y)

现在我们有了一个回归对象，可以根据汽车的重量和排量预测 CO2 值。

# 预测一辆重量为 2300kg、排量为 1300cm³ 的汽车的 CO2 排放量 predictedCO2 = regr.predict([[2300, 1300]])

示例

观看整个示例的实际演示

import pandas
from sklearn import linear_model

df = pandas.read_csv("data.csv")

X = df[['Weight', 'Volume']]
y = df['CO2']

regr = linear_model.LinearRegression()
regr.fit(X, y)

# 预测一辆重量为 2300kg、排量为 1300cm³ 的汽车的 CO2 排放量
predictedCO2 = regr.predict([[2300, 1300]])

print(predictedCO2)

结果

[107.2087328]

运行示例 »

我们预测，一辆发动机排量为 1.3 升、重量为 2300 公斤的汽车，每行驶一公里大约会释放 107 克 CO2。

系数

系数是描述未知变量之间关系的因子。

例如：如果 x 是一个变量，那么 2x 就是 x 的两倍。x 是未知变量，数字 2 是系数。

在这种情况下，我们可以询问重量与 CO2 之间的系数，以及排量与 CO2 之间的系数。我们得到的答案告诉我们，如果我们增加或减少其中一个自变量，会发生什么。

示例

打印回归对象的系数

import pandas
from sklearn import linear_model

df = pandas.read_csv("data.csv")

X = df[['Weight', 'Volume']]
y = df['CO2']

regr = linear_model.LinearRegression()
regr.fit(X, y)

print(regr.coef_)

结果

[0.00755095 0.00780526]

运行示例 »

结果解释

结果数组代表重量和排量的系数。

重量：0.00755095
排量：0.00780526

这些值告诉我们，如果重量增加 1 公斤，CO2 排放量增加 0.00755095 克。

如果发动机尺寸（排量）增加 1 cm³，CO2 排放量增加 0.00780526 克。

我认为这是一个合理的猜测，但让我们来测试一下！

我们已经预测，如果一辆 1300cm³ 发动机的汽车重 2300 公斤，其 CO2 排放量将约为 107 克。

如果我们重量增加 1000 公斤呢？

示例

复制之前的示例，但将重量从 2300 改为 3300

import pandas
from sklearn import linear_model

df = pandas.read_csv("data.csv")

X = df[['Weight', 'Volume']]
y = df['CO2']

regr = linear_model.LinearRegression()
regr.fit(X, y)

predictedCO2 = regr.predict([[3300, 1300]])

print(predictedCO2)

结果

[114.75968007]

运行示例 »

我们预测，一辆发动机排量为 1.3 升、重量为 3300 公斤的汽车，每行驶一公里大约会释放 115 克 CO2。

这表明系数 0.00755095 是正确的

107.2087328 + (1000 * 0.00755095) = 114.75968

★ +1

W3schools 学习路径

跟踪您的进度 - 免费！

Python 教程

文件处理

Python 模块

Python Matplotlib

机器学习

Python MySQL

Python MongoDB

Python 参考

模块参考

Python 如何操作

Python 示例

机器学习 - 多重回归

多重回归

它是如何工作的？

示例

结果

系数

示例

结果

结果解释

示例

结果

拾色器

联系销售

报告错误

热门教程

热门参考

热门示例

获取证书