统计学帮助我们收集、理解并解析数据。从发现趋势到做出预测,统计学提供了将原始数字转化为有用洞察的工具。在数据科学中,无论你是构建模型还是做出决策,统计学都贯穿于每一个步骤。学习统计学是我们通过数据进行清晰思考和解决问题的第一步。
基本统计术语
- 数据:数据指的是为了分析而收集的事实、数字或观察结果。它可以是任何东西,从客户购买记录到温度读数。数据是统计学家和数据科学家用来发现模式和洞察的原材料。
- 变量:变量是统计分析的构建块。它们帮助我们定义我们要测量的内容以及我们将如何分析它。变量主要分为两种类型:
- 定量变量:可以测量的数值数据(例如:年龄、收入、温度)。
- 定性变量:描述特征的分类数据(例如:性别、颜色、产品类型)。
- 总体:研究中感兴趣的个体、对象或数据点的完整集合。
- 样本:从总体中选取用于分析的子集。当研究整个总体是不可能或没必要时,就会使用样本。例如,与其测量一个国家所有成年人的身高,你可能只会测量1000名成年人的身高,并利用这些数据推断出关于整个总体的信息。
- 参数:描述总体特征的数值。例如,一个城市所有家庭的平均收入就是一个参数。参数通常是未知的,并使用样本数据进行估计。
- 统计量:描述样本特征的数值。例如,一个城市中调查的100个家庭的平均收入就是一个统计量。统计量用于估计参数并推断总体特征。
统计学的类型
!stat统计学类型的流程图
1. 描述性统计学
描述性统计学对数据集的主要特征进行汇总和描述。它们提供了关于样本的简单摘要,并帮助我们理解数据的集中趋势、变异性和分布。关键指标包括:
- 集中趋势的度量:平均数、中位数和众数。
- 变异性的度量:极差、方差和标准差。
- 频率分布的度量:直方图、频率表。
描述性统计学对于组织和简化数据至关重要,这使得数据更容易解释。
2. 推论性统计学
推论性统计学允许我们根据样本数据对总体做出预测或推断。它们帮助我们将从样本中发现的发现推广到更大的总体。推论性统计学对于得出结论和做出数据驱动的决策至关重要。
数据的类型
!<a href="https://media.geeksforgeeks.org/wp-content/uploads/20251119101343707768/typesofdata.webp">typesofdata数据类型
1. 定量数据
定量数据由可以测量的数值组成。它进一步分为:
- 离散数据:不可分割的可计数值(例如:班级中的学生人数,停车场里的汽车数量)。
- 连续数据:可以在一定范围内取任何值的可测量值(例如:身高、体重、温度)。
2. 定性数据
定性数据描述性质或特征,是非数值性的。它进一步分为:
- 名义数据:没有任何内在顺序的类别(例如:性别、颜色、水果类型)。
- 有序数据:具有有意义顺序或等级的类别(例如:教育水平、客户满意度评级)。
定性数据通常用于分类,并使用频率计数或百分比进行分析。
测量水平详解
测量水平决定了数据如何分析以及哪些统计技术是合适的。共有四个水平:
!<a href="https://media.geeksforgeeks.org/wp-content/uploads/20251206123755209876/thefourlevelofmeasu.webp">thefourlevelofmeasu四个测量水平
1. 名义水平
名义数据是最简单的测量水平。它涉及将数据分类为不同的组或标签,没有任何顺序或排名。例子包括:
- 水果类型(苹果、香蕉、橙子)。
- 颜色(红色、蓝色、绿色)。
名义数据使用频率计数(例如,有多少苹果与香蕉)或众数(出现最频繁的类别)进行分析。
2. 有序水平
有序数据建立在名义数据的基础之上,它引入了顺序或排名的概念。虽然类别之间有明确的相对关系,但它们之间的间隔可能不相等。例子包括:
- 教育水平(高中、本科、研究生)。
- 客户满意度评级(不满意、中立、满意)。
我们可以对有序数据进行排序(例如,“研究生”高于“本科”),但我们不能说“本科”和“高中”之间的差异与“研究生”和“本科”之间的差异相同。
3. 间隔水平
间隔数据不仅具有顺序,而且已知类别之间的间隔是相等的。然而,它没有绝对的零点(零不代表“没有”)。例子包括:
- 温度(摄氏度或华氏度)。
- 日历年份。
我们可以对间隔数据进行加法和减法(例如,20°C 比 10°C 热 10 度),但不能进行乘法或除法(例如,20°C 并不“比”10°C 热两倍)。
4. 比率水平
比率数据是最高级别的测量。它具有顺序、等距,并且拥有一个绝对零点(零意味着“没有”)。例子包括:
- 身高、体重、年龄。
- 收入、温度(开尔文)。
对于比率数据,我们可以进行所有数学运算,包括乘法和除法(例如,20岁是10岁的两倍,或者0收入意味着没有收入)。
了解数据的测量水平对于选择正确的统计方法至关重要,因为这决定了我们可以从数据中提取出什么样的有效结论。