机器学习 - 多重回归
多重回归
多重回归类似于 线性回归,但具有多个自变量,这意味着我们尝试基于两个或多个变量来预测一个值。
请看下面的数据集,它包含了一些关于汽车的信息。
汽车 | Model | 音量 | Weight | CO2 |
丰田 | Aygo | 1000 | 790 | 99 |
Mitsubishi | Space Star | 1200 | 1160 | 95 |
Skoda | Citigo | 1000 | 929 | 95 |
Fiat | 500 | 900 | 865 | 90 |
迷你 | Cooper | 1500 | 1140 | 105 |
VW | Up! | 1000 | 929 | 105 |
Skoda | Fabia | 1400 | 1109 | 90 |
奔驰 | A-Class | 1500 | 1365 | 92 |
福特 | Fiesta | 1500 | 1112 | 98 |
奥迪 | A1 | 1600 | 1150 | 99 |
Hyundai | I20 | 1100 | 980 | 99 |
Suzuki | Swift | 1300 | 990 | 101 |
福特 | Fiesta | 1000 | 1112 | 99 |
本田 | Civic | 1600 | 1252 | 94 |
Hundai | I30 | 1600 | 1326 | 97 |
Opel | Astra | 1600 | 1330 | 97 |
宝马 | 1 | 1600 | 1365 | 99 |
Mazda | 3 | 2200 | 1280 | 104 |
Skoda | Rapid | 1600 | 1119 | 104 |
福特 | Focus | 2000 | 1328 | 105 |
福特 | Mondeo | 1600 | 1584 | 94 |
Opel | Insignia | 2000 | 1428 | 99 |
奔驰 | C-Class | 2100 | 1365 | 99 |
Skoda | Octavia | 1600 | 1415 | 99 |
沃尔沃 | S60 | 2000 | 1415 | 99 |
奔驰 | CLA | 1500 | 1465 | 102 |
奥迪 | A4 | 2000 | 1490 | 104 |
奥迪 | A6 | 2000 | 1725 | 114 |
沃尔沃 | V70 | 1600 | 1523 | 109 |
宝马 | 5 | 2000 | 1705 | 114 |
奔驰 | E-Class | 2100 | 1605 | 115 |
沃尔沃 | XC70 | 2000 | 1746 | 117 |
福特 | B-Max | 1600 | 1235 | 104 |
宝马 | 2 | 1600 | 1390 | 108 |
Opel | Zafira | 1600 | 1405 | 109 |
奔驰 | SLK | 2500 | 1395 | 120 |
我们可以根据发动机尺寸预测汽车的 CO2 排放量,但通过多重回归,我们可以引入更多变量,例如汽车的重量,以使预测更准确。
它是如何工作的?
在 Python 中,我们有模块可以为我们完成工作。首先导入 Pandas 模块。
import pandas
在我们的 Pandas 教程 中了解 Pandas 模块。
Pandas 模块允许我们读取 csv 文件并返回 DataFrame 对象。
该文件仅用于测试目的,您可以在此处下载:data.csv
df = pandas.read_csv("data.csv")
然后,将自变量列入一个名为 X
的列表中。
将因变量放在一个名为 y
的变量中。
X = df[['Weight', 'Volume']]
y = df['CO2']
提示: 通常将自变量列表命名为大写 X,将因变量列表命名为小写 y。
我们将使用 sklearn 模块中的一些方法,所以我们也需要导入该模块
from sklearn import linear_model
从 sklearn 模块中,我们将使用 LinearRegression()
方法来创建一个线性回归对象。
该对象有一个名为 fit()
的方法,它接受自变量和因变量作为参数,并用描述关系的数据填充回归对象。
regr = linear_model.LinearRegression()
regr.fit(X, y)
现在我们有了一个回归对象,可以根据汽车的重量和排量预测 CO2 值。
# 预测一辆重量为 2300kg、排量为 1300cm³ 的汽车的 CO2 排放量
predictedCO2 = regr.predict([[2300, 1300]])
示例
观看整个示例的实际演示
import pandas
from sklearn import linear_model
df = pandas.read_csv("data.csv")
X = df[['Weight', 'Volume']]
y = df['CO2']
regr = linear_model.LinearRegression()
regr.fit(X, y)
# 预测一辆重量为 2300kg、排量为 1300cm³ 的汽车的 CO2 排放量
predictedCO2 = regr.predict([[2300, 1300]])
print(predictedCO2)
结果
[107.2087328]
我们预测,一辆发动机排量为 1.3 升、重量为 2300 公斤的汽车,每行驶一公里大约会释放 107 克 CO2。
系数
系数是描述未知变量之间关系的因子。
例如:如果 x
是一个变量,那么 2x
就是 x
的两倍。x
是未知变量,数字 2
是系数。
在这种情况下,我们可以询问重量与 CO2 之间的系数,以及排量与 CO2 之间的系数。我们得到的答案告诉我们,如果我们增加或减少其中一个自变量,会发生什么。
示例
打印回归对象的系数
import pandas
from sklearn import linear_model
df = pandas.read_csv("data.csv")
X = df[['Weight', 'Volume']]
y = df['CO2']
regr = linear_model.LinearRegression()
regr.fit(X, y)
print(regr.coef_)
结果
[0.00755095 0.00780526]
结果解释
结果数组代表重量和排量的系数。
重量:0.00755095
排量:0.00780526
这些值告诉我们,如果重量增加 1 公斤,CO2 排放量增加 0.00755095 克。
如果发动机尺寸(排量)增加 1 cm³,CO2 排放量增加 0.00780526 克。
我认为这是一个合理的猜测,但让我们来测试一下!
我们已经预测,如果一辆 1300cm³ 发动机的汽车重 2300 公斤,其 CO2 排放量将约为 107 克。
如果我们重量增加 1000 公斤呢?
示例
复制之前的示例,但将重量从 2300 改为 3300
import pandas
from sklearn import linear_model
df = pandas.read_csv("data.csv")
X = df[['Weight', 'Volume']]
y = df['CO2']
regr = linear_model.LinearRegression()
regr.fit(X, y)
predictedCO2 = regr.predict([[3300, 1300]])
print(predictedCO2)
结果
[114.75968007]
我们预测,一辆发动机排量为 1.3 升、重量为 3300 公斤的汽车,每行驶一公里大约会释放 115 克 CO2。
这表明系数 0.00755095 是正确的
107.2087328 + (1000 * 0.00755095) = 114.75968