数据科学中的统计学:核心概念与基础

统计学是关于收集、分析和解释数据以发现规律并做出决策的科学。在数据科学领域,它是我们理解数据并构建可靠模型的基石。

  • 利用均值、中位数和方差等度量指标来汇总数据
  • 使用概率和分布对不确定性进行建模
  • 进行假设检验(例如 A/B 测试)
  • 通过回归和相关分析发现变量间的关系

统计学的类型

通常我们将统计学分为两类,下面我们将分别讨论:

  • 描述性统计: [描述性统计]帮助我们简化和整理大量数据。这使得海量数据变得更容易理解。
  • 推断性统计: [推断性统计]则略有不同。它利用较小的数据集对更大的整体进行推断。它帮助我们预测总体特征并得出结论。

什么是统计学中的数据?

数据是观察值的集合,它可以表现为数字、文字、测量结果或陈述。

数据的类型

1. 定性数据: 这类数据是描述性的。例如——她很漂亮,他很高等。
2. 定量数据: 这是数值型的信息。例如——一匹马有四条腿。

  • 离散数据: 具有特定的固定值,并且可以被计数。
  • 连续数据: 不是固定的,而是有一个取值范围,并且可以被测量。

统计学基础

统计学中的基本公式如下表所示:

参数

定义

公式 —

— 总体均值

整个群体的平均值。

\Sigma{\frac{x}{N}} 样本均值

总体子集的平均值

\Sigma{\frac{x}{n}} 样本/总体标准差

衡量数据相对于均值的离散程度

\text{Population σ} = \sqrt{\frac{1}{N} \sum{i=1}^{n} (xi – \mu)^2}\\\text{Sample s} = \sqrt{\frac{1}{N-1} \sum{i=1}^{n} (xi – \bar{x})^2} 样本/总体方差

显示数值距离均值的平方偏差

Variance(Population)~=~\frac{{\sum(x-\overline{x})^2}}{n}\\Variance(Sample)~=~\frac{{\sum(x-\overline{x})^2}}{n-1} 组距

组内的数值范围

CI = Upper Limit − Lower Limit 频数

某个值出现的次数

发生次数的计数 全距

最大值与最小值之差

Range = Max−Min

集中趋势的度量

1. 均值: 我们可以通过将样本中所有数值相加,然后除以样本或总体中数值的总数来计算 均值

> 公式:Mean (\mu) = \frac{Sum \, of \, Values}{Number \, of \, Values}

2. 中位数: 中位数 是数据集按从低到高或从高到低排列时的中间值。为了找到中位数,必须对数据进行排序。对于奇数个数据点,中位数是中间的数值;对于偶数个数据点,中位数是两个中间数值的平均值。
3. 众数: 样本或总体中出现频率最高的值被称为 众数

离散程度的度量

  • 全距: 全距是样本中最大值与最小值之差。
  • 方差 (σ²): 方差 是衡量数值相对于均值的离散程度的指标,通过测量围绕均值的分散情况来实现。

> 公式:\sigma^2~=~\frac{\Sigma(X-\mu)^2}{n}

  • 标准差 (σ): 标准差 是方差的平方根。标准差的度量单位与样本值的单位相同。它表示数据点与平均值的平均距离,因其直观的解释而被广泛使用。

> 公式:\sigma=\sqrt(\sigma^2)=\sqrt(\frac{\Sigma(X-\mu)^2}{n})

  • 四分位距 (IQR): 第一个四分位数 (Q1) 和第三个四分位数 (Q3) 之间的范围。与全距相比,它对极值不那么敏感。要计算 IQR,我们需要将数据按升序排列,然后计算第一和第三四分位数的值。接着,计算数据集每一半的均值。

> 公式: IQR = Q3 -Q1

  • 四分位数: 四分位数 将数据集分为四个相等的部分:

> Q1 (第一四分位数): 数据集下半部分的中位数(第25百分位数)。

>

> Q2 (第二四分位数 / 中位数): 整个数据集的中位数(第50百分位数)。

>

> Q3 (第三四分位数): 数据集上半部分的中位数(第75百分位数)。

  • 平均绝对偏差: a
声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。如需转载,请注明文章出处豆丁博客和来源网址。https://shluqu.cn/30586.html
点赞
0.00 平均评分 (0% 分数) - 0