数据科学中的统计学：核心概念与基础

2026-02-07 04:30:24 0条评论 90次阅读 0人点赞

统计学是关于收集、分析和解释数据以发现规律并做出决策的科学。在数据科学领域，它是我们理解数据并构建可靠模型的基石。

利用均值、中位数和方差等度量指标来汇总数据
使用概率和分布对不确定性进行建模
进行假设检验（例如 A/B 测试）
通过回归和相关分析发现变量间的关系

1 统计学的类型
2 什么是统计学中的数据？
3 统计学基础
4 集中趋势的度量
5 离散程度的度量

统计学的类型

通常我们将统计学分为两类，下面我们将分别讨论：

描述性统计： [描述性统计]帮助我们简化和整理大量数据。这使得海量数据变得更容易理解。
推断性统计： [推断性统计]则略有不同。它利用较小的数据集对更大的整体进行推断。它帮助我们预测总体特征并得出结论。

什么是统计学中的数据？

数据是观察值的集合，它可以表现为数字、文字、测量结果或陈述。

数据的类型

1. 定性数据： 这类数据是描述性的。例如——她很漂亮，他很高等。
2. 定量数据： 这是数值型的信息。例如——一匹马有四条腿。

离散数据： 具有特定的固定值，并且可以被计数。
连续数据： 不是固定的，而是有一个取值范围，并且可以被测量。

统计学基础

统计学中的基本公式如下表所示：

参数

定义

公式 —

—

— 总体均值

整个群体的平均值。

\Sigma{\frac{x}{N}} 样本均值

总体子集的平均值

\Sigma{\frac{x}{n}} 样本/总体标准差

衡量数据相对于均值的离散程度

\text{Population σ} = \sqrt{\frac{1}{N} \sum{i=1}^{n} (xi – \mu)^2}\\\text{Sample s} = \sqrt{\frac{1}{N-1} \sum{i=1}^{n} (xi – \bar{x})^2} 样本/总体方差

显示数值距离均值的平方偏差

Variance(Population)~=~\frac{{\sum(x-\overline{x})^2}}{n}\\Variance(Sample)~=~\frac{{\sum(x-\overline{x})^2}}{n-1} 组距

组内的数值范围

CI = Upper Limit − Lower Limit 频数

某个值出现的次数

发生次数的计数全距

最大值与最小值之差

Range = Max−Min

集中趋势的度量

1. 均值： 我们可以通过将样本中所有数值相加，然后除以样本或总体中数值的总数来计算均值。

> 公式：Mean (\mu) = \frac{Sum \, of \, Values}{Number \, of \, Values}

2. 中位数： 中位数是数据集按从低到高或从高到低排列时的中间值。为了找到中位数，必须对数据进行排序。对于奇数个数据点，中位数是中间的数值；对于偶数个数据点，中位数是两个中间数值的平均值。
3. 众数： 样本或总体中出现频率最高的值被称为众数。

离散程度的度量

全距： 全距是样本中最大值与最小值之差。
方差 (σ²)： 方差是衡量数值相对于均值的离散程度的指标，通过测量围绕均值的分散情况来实现。

> 公式：\sigma^2~=~\frac{\Sigma(X-\mu)^2}{n}

标准差 (σ)： 标准差是方差的平方根。标准差的度量单位与样本值的单位相同。它表示数据点与平均值的平均距离，因其直观的解释而被广泛使用。

> 公式：\sigma=\sqrt(\sigma^2)=\sqrt(\frac{\Sigma(X-\mu)^2}{n})

四分位距 (IQR)： 第一个四分位数 (Q1) 和第三个四分位数 (Q3) 之间的范围。与全距相比，它对极值不那么敏感。要计算 IQR，我们需要将数据按升序排列，然后计算第一和第三四分位数的值。接着，计算数据集每一半的均值。

> 公式： IQR = Q3 -Q1

四分位数： 四分位数将数据集分为四个相等的部分：

> Q1 (第一四分位数)：数据集下半部分的中位数（第25百分位数）。

> Q2 (第二四分位数 / 中位数)：整个数据集的中位数（第50百分位数）。

> Q3 (第三四分位数)：数据集上半部分的中位数（第75百分位数）。

平均绝对偏差： a

投稿给我们	如何建站？
vps是什么？	如何安装宝塔？
如何通过博客赚钱？	便宜wordpress托管方案
免费wordpress主题	这些都是免费方案

豆丁博客