统计学是关于收集、分析和解释数据以发现规律并做出决策的科学。在数据科学领域,它是我们理解数据并构建可靠模型的基石。
- 利用均值、中位数和方差等度量指标来汇总数据
- 使用概率和分布对不确定性进行建模
- 进行假设检验(例如 A/B 测试)
- 通过回归和相关分析发现变量间的关系
统计学的类型
通常我们将统计学分为两类,下面我们将分别讨论:
- 描述性统计: [描述性统计]帮助我们简化和整理大量数据。这使得海量数据变得更容易理解。
- 推断性统计: [推断性统计]则略有不同。它利用较小的数据集对更大的整体进行推断。它帮助我们预测总体特征并得出结论。
什么是统计学中的数据?
数据是观察值的集合,它可以表现为数字、文字、测量结果或陈述。
数据的类型
1. 定性数据: 这类数据是描述性的。例如——她很漂亮,他很高等。
2. 定量数据: 这是数值型的信息。例如——一匹马有四条腿。
- 离散数据: 具有特定的固定值,并且可以被计数。
- 连续数据: 不是固定的,而是有一个取值范围,并且可以被测量。
统计学基础
统计学中的基本公式如下表所示:
定义
—
整个群体的平均值。
总体子集的平均值
衡量数据相对于均值的离散程度
显示数值距离均值的平方偏差
组内的数值范围
某个值出现的次数
最大值与最小值之差
集中趋势的度量
1. 均值: 我们可以通过将样本中所有数值相加,然后除以样本或总体中数值的总数来计算 均值。
> 公式:Mean (\mu) = \frac{Sum \, of \, Values}{Number \, of \, Values}
2. 中位数: 中位数 是数据集按从低到高或从高到低排列时的中间值。为了找到中位数,必须对数据进行排序。对于奇数个数据点,中位数是中间的数值;对于偶数个数据点,中位数是两个中间数值的平均值。
3. 众数: 样本或总体中出现频率最高的值被称为 众数。
离散程度的度量
- 全距: 全距是样本中最大值与最小值之差。
- 方差 (σ²): 方差 是衡量数值相对于均值的离散程度的指标,通过测量围绕均值的分散情况来实现。
> 公式:\sigma^2~=~\frac{\Sigma(X-\mu)^2}{n}
- 标准差 (σ): 标准差 是方差的平方根。标准差的度量单位与样本值的单位相同。它表示数据点与平均值的平均距离,因其直观的解释而被广泛使用。
> 公式:\sigma=\sqrt(\sigma^2)=\sqrt(\frac{\Sigma(X-\mu)^2}{n})
- 四分位距 (IQR): 第一个四分位数 (Q1) 和第三个四分位数 (Q3) 之间的范围。与全距相比,它对极值不那么敏感。要计算 IQR,我们需要将数据按升序排列,然后计算第一和第三四分位数的值。接着,计算数据集每一半的均值。
> 公式: IQR = Q3 -Q1
- 四分位数: 四分位数 将数据集分为四个相等的部分:
> Q1 (第一四分位数): 数据集下半部分的中位数(第25百分位数)。
>
> Q2 (第二四分位数 / 中位数): 整个数据集的中位数(第50百分位数)。
>
> Q3 (第三四分位数): 数据集上半部分的中位数(第75百分位数)。
- 平均绝对偏差: a