深入解析：2026年视角下的停止等待、回退N帧与选择重传协议

2026-02-05 19:19:14 0条评论 3次阅读 0人点赞

在2026年的技术语境下，虽然我们正迈向 6G 通信和全息互联网时代，但底层网络协议的数学逻辑依然是构建稳定连接的基石。作为一名在分布式系统领域摸爬滚打多年的工程师，我发现无论是优化高性能的边缘计算节点，还是调试微服务间的 gRPC 通信，理解 Stop and Wait (停止等待)、Go Back N (回退 N 帧) 和 Selective Repeat (选择重传) 这三种经典的流量控制机制，依然是解决网络抖动和吞吐量问题的终极武器。

在之前的文章中，我们简要回顾了这三种协议的基本概念。今天，让我们带着“生产级”的思维，结合 2026 年最新的技术栈和开发范式，深入剖析它们的差异，并探讨如何在现代复杂架构中做出正确的技术选型。

1 现代视角下的协议深度对比与决策矩阵
2 代码实战：生产级 Selective Repeat 发送器设计
3 2026年架构师进阶：在 QUIC 与云原生时代的演进
4 总结：架构师的决策树

现代视角下的协议深度对比与决策矩阵

在教科书里，我们看的是公式；但在 2026 年的生产环境里，我们看的是延迟、吞吐量和 CPU 开销之间的权衡。最近，我们在负责一个基于 QUIC 协议 的全球边缘节点数据同步项目，这让我们对这三种协议有了全新的体感认识。

1. 停止等待 (Stop and Wait)：极简主义的代价

原理回顾：发送方发送一帧，必须等待接收方确认（ACK）后才能发送下一帧。这就像是你给朋友发微信，发一条必须等他回一条，否则你不敢发下一条。
现代痛点：

带宽利用率极低：在光纤网络时代，带宽（Bandwidth-Delay Product, BDP）巨大，但协议大部分时间都在“空转”。如果你还在用类似的同步阻塞逻辑写代码，你的服务吞吐量将会非常感人。
适用场景：唯一的现代用例可能是在极端受限的 IoT 传感器（如只有几 KB 内存的 MCU）或者某些简单的硬件握手信号中。在我们的实践中，除非是编写底层的 bootloader 通信代码，否则几乎不会在应用层使用它。

2. 回退 N 帧 (Go Back N, GBN)：简单粗暴的吞吐量优化

原理回顾：发送方维护一个窗口大小为 N 的滑动窗口，可以连续发送 N 个包而不需要等待确认。接收方只接收按顺序到达的包，一旦发现乱序（比如收到包 3，但期望包 2），它就丢弃所有后续包，并拒绝确认（重复发送 ACK 2）。发送方一旦超时或收到 3 个重复 ACK，就会“回退”到丢失的那个包，重传该包及其后的所有包。
现代痛点：

浪费带宽：这在 2026 年是一个大忌。想象一下，你正在通过 Starlink（星链）传输 4K 视频流，如果中间丢了一个 1500 字节的数据包，GBN 可能会导致后面几十 MB 的数据被丢弃并重传。
接收端逻辑简单：接收端不需要大缓冲区，因为它是“傲娇”的——乱序的包我不要。这在某些嵌入式网关中依然有应用，因为它节省了接收端的内存。

3. 选择重传 (Selective Repeat, SR)：现代网络的事实标准

原理回顾：同样是滑动窗口，但接收端维护了与发送方相当的窗口缓冲区。如果包 2 丢失，但包 3、4 到了，接收端会把 3、4 缓存起来，并立即发送 SACK（Selective ACK，选择确认），告诉发送方“我缺了包 2，但 3、4 我都收到了”。发送方只重传包 2。
为什么它是 2026 的王者：

TCP Reno/Tahoe 的时代已经过去，现代 TCP (CUBIC, BBR) 和 QUIC 协议 默认采用类似 SR 的机制。在物理链路不稳定（如移动网络）的高带宽环境中，重传整个窗口是灾难性的，SR 极大地提高了链路利用率。

代码实战：生产级 Selective Repeat 发送器设计

在现代开发中，我们很少直接从零写协议栈，但理解其实现能帮助我们优化应用层的重试逻辑。与其写死一个“失败就重试”的逻辑，不如参考 SR 的思想，实现一个带“缓冲窗口”的异步发送器。

下面这段 Python 代码展示了我们在一个 异步消息队列客户端 中的简化实现逻辑。它模拟了发送方如何维护窗口、处理超时以及处理选择性确认。请特别注意我们如何处理 base 指针和定时器重置——这是高效的核心。

import asyncio
import time
import random
from collections import OrderedDict

class ModernSelectiveRepeatSender:
    def __init__(self, window_size=8, timeout=2.0):
        # 发送窗口：Key是序列号，Value包含数据包负载、状态和重试次数
        self.send_window = OrderedDict() 
        self.window_size = window_size
        self.base = 0      # 窗口起始序列号（最早的未确认包）
        self.next_seq = 0  # 下一个待发送包的序列号
        self.timeout = timeout
        self.lock = asyncio.Lock() # 在2026年，并发安全是必须的
        self.timer_task = None

    async def send(self, data: str):
        """异步发送数据接口"""
        async with self.lock:
            # 检查窗口是否已满
            if self.next_seq < self.base + self.window_size:
                seq_num = self.next_seq
                print(f"[Sender] Sending packet #{seq_num}: {data}")
                
                # 模拟网络传输动作... (在此处调用网络库)
                
                # 将包存入窗口等待 ACK
                self.send_window[seq_num] = {
                    'data': data, 
                    'acked': False,
                    'timestamp': time.time()
                }
                
                # 如果这是窗口中的第一个包，启动超时监控任务
                if self.base == seq_num:
                    self._reset_timer()
                    
                self.next_seq += 1
            else:
                print(f"[Sender] Window full (Size: {self.window_size}). Backpressure applied.")
                # 在实际生产中，这里会挂起当前协程直到窗口滑动
                await asyncio.sleep(0.1)

    async def receive_ack(self, ack_num: int):
        """处理接收到的 ACK（支持 SACK 思想）"""
        async with self.lock:
            if ack_num in self.send_window:
                print(f"[Sender] Received ACK for #{ack_num}")
                # 标记为已确认，但不立即删除，因为我们需要检查是否可以滑动窗口
                del self.send_window[ack_num]
                
                # 尝试滑动窗口：移除所有已确认的连续包
                # 注意：SR 协议中，如果 base=5 收到 ACK 6，窗口不能滑动，必须等 5
                # 但如果是 SACK，我们知道 6 到了，只需要重传 5
                self._slide_window()

    def _slide_window(self):
        """核心逻辑：滑动窗口指针"""
        # 只要 base 包在窗口里已经不存在（即已收到 ACK），就向右移动
        while self.base not in self.send_window and self.base < self.next_seq:
            # 这里模拟 TCP 的累积确认或者 SR 的单包移除
            self.base += 1
            print(f"[Sender] Window advanced. New base: {self.base}")
        
        if self.base == self.next_seq:
            # 窗口为空，停止计时器
            if self.timer_task:
                self.timer_task.cancel()
                self.timer_task = None
        else:
            # 窗口还有未确认数据，重置计时器
            self._reset_timer()

    def _reset_timer(self):
        """仅针对窗口中的第一个包 设置超时"""
        if self.timer_task:
            self.timer_task.cancel()
        
        # 这里使用 asyncio 创建一个后台任务来模拟超时事件
        async def timeout_monitor():
            await asyncio.sleep(self.timeout)
            await self._handle_timeout()
            
        self.timer_task = asyncio.create_task(timeout_monitor())

    async def _handle_timeout(self):
        """超时处理：仅重传 base 包"""
        # 双重检查，可能期间收到了 ACK
        if self.base not in self.send_window:
            return
            
        print(f"[Sender] Timeout! Retrying packet #{self.base} (Selective Retransmission)")
        packet = self.send_window[self.base]
        
        # 在 2026 年的架构中，这里我们会记录一个 Panadus 事件或 Span
        # telemetry.record_event("packet_timeout", seq=self.base)
        
        # 模拟重发动作
        # ... network_send(packet['data']) ...
        
        # 重置计时器
        self._reset_timer()

# 运行模拟
async def main():
    sender = ModernSelectiveRepeatSender(window_size=4)
    
    # 模拟发送 burst 数据
    await sender.send("Data_0")
    await sender.send("Data_1")
    await sender.send("Data_2")
    
    # 模拟网络延迟和乱序 ACK
    await asyncio.sleep(1)
    await sender.receive_ack(0) # ACK 0
    await sender.receive_ack(2) # ACK 2 (模拟 SACK，收到 2 但 1 丢了)
    # 此时不应该滑动窗口，因为 base (1) 还没收到
    
    await asyncio.sleep(2) # 等待超时
    # 预期输出：Timeout! Retrying packet #1
    
if __name__ == "__main__":
    asyncio.run(main())

2026年架构师进阶：在 QUIC 与云原生时代的演进

理解了经典算法后，我们来看看这些原理是如何在 2026 年的前沿技术中演变的。这不仅仅是“重传”，而是关于智能拥塞控制。

1. 从 Selective Repeat 到 QUIC 的演进

如果你深入研究过 HTTP/3，你会发现它运行在 QUIC 协议之上。QUIC 本质上是将 SR 的逻辑发挥到了极致，并结合了 UDP 的低延迟特性。

彻底解决头部阻塞：在 TCP 中，虽然使用了 SR，但如果丢包发生，上层应用的读取会被阻塞，因为 TCP 必须按顺序交付数据给应用。而在 QUIC 中，不同的 Stream（数据流）互不干扰。Stream 1 的丢包不会影响 Stream 2 的数据交付。这是现代多路复用架构对 SR 协议的终极升级。
前向纠错 (FEC)：在 2026 年的 边缘计算 场景中，仅仅“重传”已经不够了。我们在卫星通信链路中开始引入 FEC。这意味着发送方不仅发送数据包，还发送额外的冗余包。接收方即使丢失了几个包，也能通过数学计算还原出数据，根本不需要请求重传。这可以看作是 SR 的“预防针”版本。

2. AI 驱动的流量控制与“氛围编程”实践

作为工程师，我们现在的开发方式也变了。当我们设计一个新的 RPC 协议时，我们很少从零开始写 C++ 代码来实现窗口滑动。

Vibe Coding 与 AI 辅助验证：使用 Cursor 或 Windsurf 等 AI IDE，我们可以快速用自然语言描述：“帮我写一个类似 Selective Repeat 的滑动窗口算法，但使用 Rust 实现，并且针对高延迟卫星网络优化。” AI 会帮我们生成基础的状态机代码。然后，我们的工作重心转向了验证这个状态机的安全性和活性。

机器学习拥塞控制：Google 的 BBR 拥塞控制算法已经在 2026 年成为主流，它不再单纯依赖丢包来判断拥塞（因为丢包在 Wi-Fi 环境下太常见了），而是测量带宽和 RTT 的最小值。这实际上是让流量控制协议变得更“聪明”，不再是机械地“收到 ACK 就发，没 ACK 就停”，而是预测网络的承载能力。

3. 调试与可观测性：当 SR 出问题时

在微服务架构中，如果发现网络吞吐突然下降，而我们正在使用类似 SR 的协议（如 gRPC streaming），该如何排查？

查看 SACK 指标：使用 INLINECODE4a552b45 抓包或查看 Prometheus 指标中的 INLINECODEe7c67f19 和 tcp_sack_failures。如果重传率很高但 SACK 也在工作，说明网络链路极其不稳定（可能是信号干扰）。
缓冲区膨胀：这是 SR 在 2026 年最大的敌人。如果接收端处理太慢，TCP 窗口会填满，数据堆积在接收缓冲区。我们会观察到 RTT 飙升（因为数据在队列里排队）。解决方案是应用 ECN (Explicit Congestion Notification)，让路由器告诉发送方“我要堵了”，而不是等丢包后才反应。

总结：架构师的决策树

让我们回到最初的问题。在你的下一个项目中，面对这三种机制，该如何决策？

如果资源接近无限，追求极致性能 (Web后端, 视频流, 分布式数据库)：

选择 Selective Repeat 的现代变体。 直接使用 TCP (Linux 内核已优化至极) 或 QUIC。不要自己造轮子，除非你在写 UDP 协议。

如果资源受限，且链路可靠 (嵌入式控制, CAN总线)：

Stop-and-Wait 依然有效。简单就是美，减少内存占用意味着更低的 BOM 成本。

如果需要自己写简易协议 (私有二进制协议, 游戏内网)：

从 Go Back N 开始。它比 SR 容易实现得多，调试也简单。只有在发现重传严重浪费带宽时，再升级到 SR。

网络技术的演变是螺旋上升的。虽然我们在谈论 6G 和 AI，但核心的流量控制思想依然停留在几十年前提出的滑动窗口上。希望这篇文章能让你在面对“网络慢”的问题时，不再感到迷茫，而是能透过现象看到底层的 ACK 与 Window 在如何博弈。

投稿给我们	如何建站？
vps是什么？	如何安装宝塔？
如何通过博客赚钱？	便宜wordpress托管方案
免费wordpress主题	这些都是免费方案

豆丁博客