深入掌握 Linux sar 命令：系统性能监控与分析实战指南

2026-02-08 13:00:06 0条评论 48次阅读 0人点赞

作为 Linux 系统管理员或开发者，你是否曾经遇到过这样的棘手情况：服务器在今天早晨运行缓慢，或者昨晚某个时刻 CPU 突然飙升，但当你登录系统查看时，一切又恢复正常了？这种“幽灵般”的性能问题往往让人无从下手。在我们的团队中，我们把这种情况称为“海森堡 Bug”——当你观察它时，它就消失了。

这就是为什么即使到了 2026 年，面对着层出不穷的现代化监控工具，我们依然需要掌握 INLINECODEed3dd6ab (System Activity Report，系统活动报告) 这一经典工具的原因。不同于 Grafana 或 Prometheus 只能展示“此时此刻”的快照（或者受限于监控留存期），INLINECODEbb18b920 就像是部署在服务器本地的“黑匣子记录仪”，能够以极低的成本记录过去的历史数据，帮助我们在系统甚至无法连接外网时进行回溯分析。

在这篇文章中，我们将深入探讨如何利用 sar 来监控 CPU、内存、I/O 和网络，并结合 2026 年最新的开发理念，分享我们是如何在现代化运维体系中定位它的位置，以及如何用它来排查那些高级工具可能遗漏的深层故障。

1 什么是 sar (System Activity Report)？
2 为什么在 2026 年我们依然选择 sar？
3 安装与配置 sar
4 实战演练：监控与分析系统性能
5 历史数据分析：像侦探一样排查故障
6 最佳实践与常见陷阱
7 总结

什么是 sar (System Activity Report)？

INLINECODEe9cdd5aa 是一个功能强大且灵活的命令行工具，它归属于 INLINECODE3bca0275 软件包。我们可以通过它来收集、报告和保存 Linux 系统中各种资源的活动信息，包括但不限于：

CPU 利用率：用户态、内核态、等待 I/O 的时间等。
内存与交换分区：内存使用率、缓存、缓冲区大小以及交换分区的活跃度。
I/O 设备：物理磁盘的读写速度和传输速率。
网络监控：网络接口的流量、错误包、碰撞统计等。
进程与线程：创建进程的速率、上下文切换频率。
其他指标：电池性能、特定的文件系统活动等。

对 Linux 系统进行持续监控和分析，不仅能让我们理解当前的资源负载情况，更重要的是，它能帮助我们发现系统瓶颈。在云原生时代，虽然容器化让资源隔离变得容易，但宿主机的性能健康依然是一切的基础。默认情况下，INLINECODEbd02e5d5 命令会将结果直接输出到终端屏幕，方便我们即时查看。此外，我们还可以使用 INLINECODEaa9df311 选项将数据持久化存储在二进制文件中，以便日后进行更深入的分析。

为什么在 2026 年我们依然选择 sar？

Linux 生态系统中并不缺少监控工具。我们熟知云原生的 Prometheus、Grafana，以及实时的 INLINECODE0ee2d3de、INLINECODE61e97ac5、INLINECODE9aa47b09。那么，为什么我们强烈推荐你掌握 INLINECODEaa3546f7 呢？作为经历过无数次线上故障的资深工程师，我们有以下几个理由：

1. “离线”时的最后防线 (历史数据回溯能力)

这是 INLINECODEe133fbb8 最大的杀手锏。像 INLINECODEab466d6c 和 htop 这样的工具，只能展示你登录那一刻的实时状态。而 Grafana 等可视化工具通常受限于存储成本，不会保留秒级的细粒度历史数据超过几天（甚至几小时）。如果问题发生在凌晨 3 点，而你早上 9 点才开始排查，且监控数据已经被降采样，那么那些高级工具也无能为力。

INLINECODE974547f1 通过 cron 任务定期记录系统快照到本地文件，让我们能够“穿越”回过去。即使网络中断，或者整个监控挂掉，只要机器能 SSH 上去，INLINECODE0dd38b67 里的数据就在那里。

2. 极低的资源开销 (轻量级与自动化)

在我们最近的边缘计算项目中，部署在资源受限的 IoT 设备上的监控服务本身成为了性能杀手。许多基于 Agent 的监控工具（如某些 Datadog 或 New Relic 的 Agent）在高峰期可能占用 5%-10% 的 CPU。相比之下，sar 对系统资源的消耗极低（通常 < 0.5%）。它非常适合在生产环境的后台长期运行，不会因为监控工具本身占用过多资源而影响业务性能。

3. 现代可观测性的有益补充

INLINECODE64060efb 并不是要取代 Prometheus，而是互补。我们在处理复杂的生产级问题时，通常会先看 Grafana 的宏观趋势，一旦发现异常点，立即登录对应节点，使用 INLINECODEbf28a8d5 调取该时间段的详细日志，查看 CPU 具体是在内核态还是用户态飙升，或者是否发生了大量的上下文切换。这种“宏微结合”的策略，是我们解决性能问题的黄金标准。

安装与配置 sar

虽然许多现代 Linux 发行版已经预装了 sar，但在某些最小化安装的容器或云镜像中，我们可能需要手动安装。

安装步骤

在 Ubuntu 或 Debian 系统中：

# 更新软件包列表并安装 sysstat
sudo apt update
sudo apt install sysstat

在 RedHat、CentOS 或 Fedora 系统中：

# 使用 dnf 或 yum 安装
sudo dnf install sysstat
# 或者对于旧版本
sudo yum install sysstat

确保数据收集服务已启用

仅仅安装 sysstat 是不够的，我们还需要确保数据收集服务正在运行。

启动并启用服务：

    sudo systemctl start sysstat.service
    sudo systemctl enable sysstat.service

验证服务状态：

    sudo systemctl status sysstat.service

注意：确保服务显示为 "active (exited)" 或 "active (running)"。通常它通过 systemd 的 timer 或 cron 定时任务来触发数据收集。

实战演练：监控与分析系统性能

现在，让我们通过几个具体的场景来学习如何使用 sar。我们将涵盖 CPU、内存、网络和 I/O 等核心指标。

1. CPU 监控：定位高负载源头

CPU 性能是我们最先关注的指标。使用 -u 选项可以查看 CPU 的使用情况。

场景： 我们想每秒采样一次，连续查看 5 次 CPU 的使用细节。

# -u: 显示 CPU 使用情况 (默认选项)
# 1: 每隔 1 秒
# 5: 总共显示 5 次
# --human: 以人类可读格式显示 (sysstat 12.5+ 版本特性)
sar -u 1 5

输出详解：

运行上述命令后，你会看到类似以下的输出（注：各列含义至关重要）：

%user：应用程序（用户空间）消耗的 CPU 百分比。如果这个值很高，说明你的业务程序（如 Web 服务器、数据库）计算量大，或者是代码中存在死循环。
%system：内核空间（系统调用）消耗的 CPU 百分比。过高可能表示系统在进行频繁的上下文切换或 I/O 操作。
%iowait：CPU 等待 I/O 操作完成的时间百分比。这是性能瓶颈的关键指标。如果这里很高，说明 CPU 在空等硬盘或网络数据，瓶颈在于磁盘或网络速度。
%idle：CPU 空闲的时间百分比。如果长期为 0，说明系统负载已满。

实用建议： 如果发现 INLINECODE0e90aed8 值持续高于 20%，你应该结合 INLINECODE6b964be3 或 sar -d 进一步检查是哪个磁盘设备拖慢了系统。

2. 内存监控：不仅仅是 free 命令

虽然 INLINECODE1abfe4d1 命令很常用，但 INLINECODE133527d3 能提供更动态的内存使用趋势。使用 -r 选项。

场景： 持续监控内存，观察是否有内存泄漏现象。

# -r: 显示内存使用情况
# 3: 每隔 3 秒显示一次
# -S: 显示 swap 使用情况 (在某些版本中)
sar -r 3

输出详解：

INLINECODEea2c20b8 / INLINECODE9070f2f2：物理内存的空闲和已使用量。
%memused：内存使用百分比。
INLINECODEa0e5f9b4 / INLINECODE417809a9：被内核作为缓冲区和缓存使用的内存。注意： Linux 会尽量利用空闲内存作为缓存，以加速文件读取。因此，只要 INLINECODE06785ffa 较高且 INLINECODEde56e54a 使用率不高，通常不必担心。
INLINECODE4e78720e 和 INLINECODE7e297e4e：系统当前 workload 所需的内存总量（包括 swap），这有助于评估内存是否足够满足未来的需求。在开发内存密集型应用（如 AI 推理服务）时，这个指标非常重要。

3. 磁盘 I/O 监控：解决卡顿问题

当系统变慢时，往往是磁盘 I/O 达到了瓶颈。我们可以使用 -d 选项来查看设备级别的吞吐率。

# -d: 报告块设备和磁盘的使用统计
# -p: 显示设备名称（很友好，例如 sda 而不是 devXX-XX）
# 2: 间隔 2 秒
# 5: 共 5 次
# -q: 同时显示队列长度
sar -d -p -q 2 5

输出详解：

tps (Transactions Per Second)：每秒发起的传输次数（即 IOPS）。这是衡量磁盘性能的核心指标。NVMe SSD 的 IOPS 通常远高于 HDD。
INLINECODEa1e6f1f5 / INLINECODEc49b7135：每秒读取和写入的扇区数量。
await：平均 I/O 请求的等待时间（毫秒）。极重要指标。普通 HDD 硬盘如果 await 超过 20ms，或者 SSD 超过 5ms，可能意味着 I/O 队列过长或硬件故障。
%util：设备利用率。如果接近 100%，说明磁盘已满载。

4. 网络监控：排查流量异常

如果怀疑遭受 DDoS 攻击或者有异常流量，INLINECODEfc858a53 的网络功能会非常有用。使用 INLINECODE25f9996f 选项。

# -n DEV: 监控网络接口设备的统计信息
# -n EDEV: 显示网络错误统计
# -n IP: 显示 IP 层流量统计
sar -n DEV 2 5

输出详解：

IFACE：网络接口名称（如 eth0, ens33）。
INLINECODEb80e522a / INLINECODE81193359：每秒接收和发送的数据包数量。
INLINECODE3bbf2609 / INLINECODE077bd5fe：每秒接收和发送的千字节数，用于计算带宽占用。
INLINECODEb4aff6cf / INLINECODEf57d4f87：每秒接收和发送的错误包数量。如果这个值不为 0，说明物理链路可能不稳定（如网线松动、双工模式不匹配）。

历史数据分析：像侦探一样排查故障

INLINECODE0044a85d 的核心价值在于回顾历史。INLINECODEb36cc06c 包通常会设置一个 cron 任务（通过 INLINECODE2be5ea75 或 systemd timer），将数据收集到 INLINECODEa1085aeb 目录下。文件名通常命名为 INLINECODE7cd37537（XX 代表日期，例如 INLINECODEceac72d7 代表当月 23 号）。

查看昨天的系统概况

如果你想知道昨天下午 3 点系统的负载情况，可以通过指定文件来查看。

# -f: 指定读取的文件
# 假设今天是 24 号，我们看 23 号的数据
# -s: 开始时间 -e: 结束时间
sar -f /var/log/sysstat/sa23 -s 15:00:00 -e 16:00:00

导出数据用于 AI 辅助分析

在 2026 年，我们经常结合 AI 工具来辅助分析日志。INLINECODE30547fec 原生的二进制格式不方便直接被 AI 读取，我们可以利用 INLINECODEb9a851c8 命令将其转换为易于理解的格式（如 CSV、JSON 或 XML），然后投喂给 AI 进行分析。

# 使用 sadf 将二进制日志转换为 CSV 格式
# 这允许我们将数据导入 Excel、Pandas 或直接发送给 LLM 分析
sadf -d /var/log/sysstat/sa23 -- -u > cpu_usage.csv

# 或者转换为可读的纯文本格式，适合复制给 ChatGPT/Claude 分析
sadf -p /var/log/sysstat/sa23 -- -r

最佳实践与常见陷阱

在我们的生产环境中，总结了一些关于使用 sar 的最佳实践：

1. 调整数据采集频率

默认配置下，INLINECODEe30fe2da 可能每 10 分钟才采集一次数据。这对于短时的性能尖峰（例如持续 30 秒的卡顿）可能会被漏掉。我们建议修改 INLINECODE1e8a82f9 或对应的 systemd timer，将频率调整为每 1 分钟或每 2 分钟一次。

2. 合理设置日志保留周期

默认情况下，日志可能只保留 7 天。对于合规性要求高的行业，或者需要分析月度/季度趋势的业务，你需要编辑 INLINECODEa51dbd46 文件，调整 INLINECODE92ebaa47 参数。例如设置为 28，保留一个月的数据。

3. 结合 BPF 和 eBPF 工具

INLINECODEda0b980d 告诉我们“发生了什么”（What），而现代的 eBPF 工具（如 INLINECODE9e524f9f）可以告诉我们“为什么发生”（Why）。当 INLINECODE3421a7d9 发现 CPU 的 INLINECODE8838c1af 飙升时，我们可以使用 execsnoop 查看具体是哪个进程在频繁执行系统调用。

总结

在这篇文章中，我们深入探讨了 Linux 下的 INLINECODE831da0d8 命令及其在 2026 年技术栈中的位置。与仅能查看实时数据的工具不同，INLINECODE9f516241 提供了宝贵的历史视角和极高的效能比。它是构建高可观测性系统的基础组件之一。

无论是通过实时监控发现当前的 CPU 瓶颈，还是通过回溯日志排查昨晚的内存泄漏，sar 都是每一位 Linux 从业者必备的利器。掌握它，将极大地增强你对系统运行状态的控制力。

你的下一步行动建议：

检查你的服务器是否已安装并启用了 sysstat 服务。
尝试运行 INLINECODE933e89aa 和 INLINECODE2faca614，熟悉各项输出指标的含义。
进入 INLINECODE067cb4b4 目录，查看一下昨天的历史数据，尝试用 INLINECODE841301e5 参数读取它。
尝试将 sar 的数据导出为 CSV，用 Python 或 AI 工具做一次简单的趋势分析。

一旦你习惯了使用 sar 提供的数据来驱动决策，你将对系统的运行状态拥有更敏锐的洞察力，从被动救火转变为主动优化。

投稿给我们	如何建站？
vps是什么？	如何安装宝塔？
如何通过博客赚钱？	便宜wordpress托管方案
免费wordpress主题	这些都是免费方案

豆丁博客

深入掌握 Linux sar 命令：系统性能监控与分析实战指南

什么是 sar (System Activity Report)？

为什么在 2026 年我们依然选择 sar？

安装与配置 sar

安装步骤

确保数据收集服务已启用

实战演练：监控与分析系统性能

1. CPU 监控：定位高负载源头

2. 内存监控：不仅仅是 free 命令

3. 磁盘 I/O 监控：解决卡顿问题

4. 网络监控：排查流量异常

历史数据分析：像侦探一样排查故障

查看昨天的系统概况

导出数据用于 AI 辅助分析

最佳实践与常见陷阱

总结

相关文章美国1G带宽/1T流量高速vps $17.99/年