机器学习 - 缩放

缩放特征

当你的数据具有不同的值，甚至不同的测量单位时，很难比较它们。公斤和米怎么比较？还是海拔和时间怎么比较？

解决这个问题的答案是缩放。我们可以将数据缩放成新的值，更容易比较。

看看下面的表格，它与我们在多元回归章节中使用的相同数据集，但这次 **volume** 列包含的是升而不是立方厘米（1.0 而不是 1000）。

汽车	型号	容积	重量	CO2

丰田	Aygo	1.0	790	99
三菱	Space Star	1.2	1160	95
斯柯达	Citigo	1.0	929	95
菲亚特	500	0.9	865	90
MINI	Cooper	1.5	1140	105
大众	Up!	1.0	929	105
斯柯达	Fabia	1.4	1109	90
梅赛德斯	A 级	1.5	1365	92
福特	嘉年华	1.5	1112	98
奥迪	A1	1.6	1150	99
现代	I20	1.1	980	99
铃木	Swift	1.3	990	101
福特	嘉年华	1.0	1112	99
本田	思域	1.6	1252	94
现代	I30	1.6	1326	97
欧宝	Astra	1.6	1330	97
宝马	1	1.6	1365	99
马自达	3	2.2	1280	104
斯柯达	Rapid	1.6	1119	104
福特	福克斯	2.0	1328	105
福特	蒙迪欧	1.6	1584	94
欧宝	英速亚	2.0	1428	99
梅赛德斯	C 级	2.1	1365	99
斯柯达	明锐	1.6	1415	99
沃尔沃	S60	2.0	1415	99
梅赛德斯	CLA	1.5	1465	102
奥迪	A4	2.0	1490	104
奥迪	A6	2.0	1725	114
沃尔沃	V70	1.6	1523	109
宝马	5	2.0	1705	114
梅赛德斯	E 级	2.1	1605	115
沃尔沃	XC70	2.0	1746	117
福特	B-Max	1.6	1235	104
宝马	2	1.6	1390	108
欧宝	Zafira	1.6	1405	109
梅赛德斯	SLK	2.5	1395	120

很难比较 1.0 的容积和 790 的重量，但如果我们把它们都缩放到可比较的值，我们可以很容易地看到一个值与另一个值相比有多大。

有不同的方法来缩放数据，在本教程中我们将使用一种称为标准化的方法。

标准化方法使用以下公式

z = (x - u) / s

其中 z 是新值，x 是原始值，u 是平均值，s 是标准差。

如果你取上面数据集中 **weight** 列，第一个值是 790，缩放后的值将是

(790 - 1292.23) / 238.74 = -2.1

如果从上面数据集中的 **体积** 列中取出第一个值，值为 1.0，那么缩放后的值为

(1.0 - 1.61) / 0.38 = -1.59

现在你可以将 -2.1 与 -1.59 进行比较，而不是将 790 与 1.0 进行比较。

你不必手动进行此操作，Python 的 sklearn 模块有一个名为 StandardScaler() 的方法，它返回一个包含用于转换数据集的方法的缩放器对象。

示例

缩放重量和体积列中的所有值

结果

请注意，前两个值为 -2.1 和 -1.59，这与我们的计算结果相符

[[-2.10389253 -1.59336644]
 [-0.55407235 -1.07190106]
 [-1.52166278 -1.59336644]
 [-1.78973979 -1.85409913]
 [-0.63784641 -0.28970299]
 [-1.52166278 -1.59336644]
 [-0.76769621 -0.55043568]
 [ 0.3046118  -0.28970299]
 [-0.7551301  -0.28970299]
 [-0.59595938 -0.0289703 ]
 [-1.30803892 -1.33263375]
 [-1.26615189 -0.81116837]
 [-0.7551301  -1.59336644]
 [-0.16871166 -0.0289703 ]
 [ 0.14125238 -0.0289703 ]
 [ 0.15800719 -0.0289703 ]
 [ 0.3046118  -0.0289703 ]
 [-0.05142797  1.53542584]
 [-0.72580918 -0.0289703 ]
 [ 0.14962979  1.01396046]
 [ 1.2219378  -0.0289703 ]
 [ 0.5685001   1.01396046]
 [ 0.3046118   1.27469315]
 [ 0.51404696 -0.0289703 ]
 [ 0.51404696  1.01396046]
 [ 0.72348212 -0.28970299]
 [ 0.8281997   1.01396046]
 [ 1.81254495  1.01396046]
 [ 0.96642691 -0.0289703 ]
 [ 1.72877089  1.01396046]
 [ 1.30990057  1.27469315]
 [ 1.90050772  1.01396046]
 [-0.23991961 -0.0289703 ]
 [ 0.40932938 -0.0289703 ]
 [ 0.47215993 -0.0289703 ]
 [ 0.4302729   2.31762392]]

运行示例 »

预测 CO2 值

在多元回归章节中的任务是，当你只知道汽车的重量和体积时预测汽车的 CO2 排放量。

当数据集被缩放时，你需要在预测值时使用该缩放器。

示例

预测一辆重量为 2300 公斤、体积为 1.3 升的汽车的 CO2 排放量

import pandas
from sklearn import linear_model
from sklearn.preprocessing import StandardScaler
scale = StandardScaler()

df = pandas.read_csv("data.csv")

X = df[['Weight', 'Volume']]
y = df['CO2']

scaledX = scale.fit_transform(X)

regr = linear_model.LinearRegression()
regr.fit(scaledX, y)

scaled = scale.transform([[2300, 1.3]])

predictedCO2 = regr.predict([scaled[0]])
print(predictedCO2)

结果

[107.2087328]

运行示例 »

★ +1

W3schools Pathfinder

Track your progress - it's free!

Python 教程

文件处理

Python 模块

Python Matplotlib

机器学习

Python MySQL

Python MongoDB

Python 参考

模块参考

Python 如何

Python 例子

机器学习 - 缩放

缩放特征

示例

结果

预测 CO2 值

示例

结果

颜色选择器

Contact Sales

Report Error

Top Tutorials

Top References

Top Examples

Get Certified