数据分析是数据分析的一个子集,其目标是从原始数据中提取有意义的见解。该过程通常包括定义问题、收集相关数据、预处理数据以确保其清洁和结构化、执行分析以发现见解,以及可视化结果以帮助利益相关者理解发现。可视化是一个特别重要的步骤,因为它有助于以原始数据无法实现的方式,清晰地与他人交流见解。
数据分析的步骤
数据分析过程可以分解为几个关键步骤。
!Data-analysis-in-R数据分析的步骤
1. 定义问题陈述
任何数据分析项目的第一步都是定义我们要解决的问题。例如,问题陈述可以是:“哪些产品卖得最快,谁是商店的常客?”这有助于我们准确理解我们需要什么数据以及我们将执行哪种类型的分析。
2. 数据收集
并非公司的所有数据都与特定分析相关。重要的是要专注于解决当前问题的数据。例如,我们将收集有关产品 ID、客户 ID 以及客户访问商店日期的数据。这确保了我们有相关的分析数据。
3. 数据预处理
一旦我们收集了数据,对其进行清理和预处理就很重要。这可能涉及:
- 处理缺失数据: 如果任何值缺失,可以用平均值或中位数填充,或者删除包含缺失数据的行。
- 去除异常值(噪声数据): 极端的异常值可能会扭曲结果,因此适当地识别和处理这些值至关重要。
- 处理无关值: 任何无关的列或数据点都应被删除或修改。
4. 执行分析
在这个阶段,数据已经清理完毕,我们可以开始分析它。这通常涉及:
- 探索数据: 使用描述性统计数据来了解数据的分布、集中趋势和其他特征。
- 识别模式: 寻找有助于解决问题的趋势、聚类、相关性或模式。
5. 可视化
可视化在使分析更易于理解方面起着关键作用。例如,如果我们正在查看商店中售出的产品,柱状图或饼图可以使结果更加直观。可视化应突出显示从数据中得出的关键见解。
使用 Titanic 数据集执行数据分析
在本节中,我们将探索一个使用 Titanic 数据集进行数据分析的真实示例。Titanic 数据集包含关于泰坦尼克号上乘客的信息,包括他们是否幸存、年龄、性别、票务等级等。
> 您可以从这里下载数据集。
1. 导入数据集
我们将把数据集加载到 R 中。我们将使用 read.csv() 函数来加载数据集并检查数据的前几行。
titanic = read.csv("train.csv")
head(titanic)
输出:
!df数据集
2. 检查数据类型
接下来,我们可以使用 sapply() 函数检查每列的类(数据类型)。这将帮助我们了解每列在 R 中是如何表示的。
cls <- sapply(titanic, class)
cls <- as.data.frame(cls)
cls
输出:
!dtype 数据类型
3. 转换分类数据
像 Survived(是否幸存)和 Sex(性别)这样的列是分类的,因此我们可以将它们转换为因子以便更好地进行分析。
titanic$Survived = as.factor(titanic$Survived)
titanic$Sex = as.factor(titanic$Sex)
cls <- sapply(titanic, class)
cls <- as.data.frame(cls)
cls
输出:
!correcteddtype 转换分类数据
4. 描述性统计
为了获得数据的概览,我们可以使用 summary() 函数。这将提供每列的关键统计数据,例如最小值、最大值、平均值和中位数值。
summary(titanic)
输出:
!summary描述性统计
5. 处理缺失值
数据集包含缺失值(NA)。为了识别存在多少缺失值,我们可以使用以下代码:
sum(is.na(titanic))
输出:
> 87
这表明数据集中有 87 个缺失值。