它之所以被称为经验法则(Empirical Rule),是因为该规则最初源于观察(“Empirical”意为“基于观察”)。正态分布(或高斯分布)是最常见的数据分布类型。所有的测量值都计算为距离均值的距离,并以标准差的形式报告。
68-95-99.7 规则的历史
68 95 99.7 规则最早由亚伯拉罕·棣莫弗(Abraham de Moivre)在 1733 年提出,比正态分布模型的发表早了 75 年。棣莫弗在概率论这一新兴领域工作。也许他对统计学最大的贡献是 1756 年版的《机遇原理》,其中包含了他在大量试验的情况下用正态分布估计二项分布的工作。
棣莫弗通过一个实验发现了 68 95 99.7 规则。你可以通过抛掷 100 枚公平的硬币来做自己的实验。请注意:
- 你预期会看到多少次正面朝上;这些是这个二项实验中的“成功”次数。
- 标准差是多少。
- 你在 68%、95% 和 99.7% 的时间内获得的正面朝上次数的上下限是多少。
经验法则有时被称为 68-95-99.7 规则,它指出对于给定具有正态分布的数据集:
- 68% 的数据值落在距离均值一个标准差的范围内。
- 95% 的数据值落在距离均值两个标准差的范围内。
- 99.7% 的数据值落在距离均值三个标准差的范围内。
在本教程中,我们将解释如何在 Excel 中将经验法则应用于给定的数据集。
假设我们有一个正态分布的数据集,其均值为 8,标准差为 2.3。下面的截图展示了如何在这个数据集上应用 Excel 中的经验法则,以找出 68% 的数据落在哪些值之间,95% 的数据落在哪些值之间,以及 99.7% 的数据落在哪些值之间:
!Finding-percent-values-for-empirical-formula
我们将得到以下结果:
从这个结果中,我们可以看到:
- 68% 的数据落在 5.7 和 10.3 之间
- 95% 的数据落在 3.4 和 12.6 之间
- 99.7% 的数据落在 1.1 和 14.9 之间
要将经验法则应用于不同的数据集,我们只需要更改单元格 C2 和 C3 中的均值和标准差。例如,以下是如何将经验法则应用于均值为 45 且标准差为 4.75 的数据集:
!Mean-and-standard-deviation-obtained
从这个结果中,我们可以看到:
- 68% 的数据落在 40.25 和 49.75 之间
- 95% 的数据落在 35.5 和 54.5 之间
- 99.7% 的数据落在 30.75 和 59.25 之间
此外,这是另一个如何将经验法则应用于均值为 100 且标准差为 4 的数据集的示例:
从这个结果中,我们可以看到:
- 68% 的数据落在 96 和 104 之间
- 95% 的数据落在 92 和 108 之间
- 99.7% 的数据落在 88 和 112 之间
查找落在特定值之间的数据百分比
你可能还会问另一个问题:落在特定值之间的数据百分比是多少?例如,假设你有一个均值为 100 且标准差为 4 的正态分布数据集,你想知道有多少百分比的数据落在 98 和 104 之间。在 Excel 中,我们可以使用 =NORM.DIST() 函数轻松回答这个问题,该函数接受以下参数:
NORM.DIST(x, mean, standard_dev, cumulative)
- x 是我们要感兴趣的值,mean 是分布的均值。
- standard_dev 是分布的标准差。
- cumulative 取值为“TRUE”(返回累积分布函数 CDF)或“FALSE”(返回概率密度函数 PDF)——我们将使用“TRUE”来获取累积分布函数的值。
下面的截图展示了如何使用 NORM.DIST() 函数来查找对于均值为 100 且标准差为 4 的分布,落在 98 和 104 之间的数据百分比:
我们看到,对于这种分布,53.3% 的数据落在 104 和 98 之间。