Zipf 分布
Zipf 分布用于基于 zipf 定律对数据进行采样。
Zipf 定律: 在一个集合中,第 n 个最常见项的出现次数约为最常见项的 1/n。例如,英语中最常见的第 5 个单词的出现次数大约是出现次数最多的单词的 1/5。
它有两个参数
a
- 分布参数。
size
- 返回数组的形状。
示例
使用分布参数为 2,大小为 2x3 的 zipf 分布抽取样本
from numpy import random
x = random.zipf(a=2, size=(2, 3))
print(x)
自己动手试一试 »
Zipf 分布的可视化
采样 1000 个点,但仅绘制值小于 10 的点以获得更有意义的图表。
示例
from numpy import random
import matplotlib.pyplot as plt
import seaborn as sns
x = random.zipf(a=2, size=1000)
sns.distplot(x[x<10], kde=False)
plt.show()