寻找二叉搜索树的中位数

2026-02-08 22:07:55 0条评论 27次阅读 0人点赞

在数据结构与算法的浩瀚星空中，二叉搜索树（BST）始终是我们处理有序数据的基石。今天，我们将重新审视一个经典问题——寻找 BST 的中位数。这不仅仅是一道面试题，更是我们在 2026 年构建高性能、AI 原生应用时，如何平衡计算效率与资源占有的缩影。

1. 问题的本质与挑战

当我们面对一颗 BST 时，寻找中位数实际上是在寻找排序后序列的中心点。中位数能够有效地反映数据的分布趋势，在统计学和实时数据分析系统中有着举足轻重的地位。

回顾问题描述，我们注意到一个关键点：$N$（节点总数）并不总是显式给出的。这意味着我们不仅要处理树的遍历，还要处理动态计数。如果 $N$ 是奇数，中位数位于中间；如果 $N$ 是偶数，则是中间两个数的平均值。

在早期的算法学习中，我们通常采用最直观的方法。让我们快速回顾一下这种方法，因为它作为基线对比非常重要。

#### 方法回顾：数组存储法（空间换时间）

最直接的思路是利用 BST 的性质：中序遍历（In-order Traversal）得到的序列是有序的。

我们可以将所有节点值存入一个数组，然后直接通过索引访问中位数。

# 基础实现：数组存储法
class Solution:
    def findMedian(self, root):
        def inorder(node):
            if not node:
                return
            # 递归遍历左子树
            inorder(node.left)
            # 收集节点值
            self.nodes.append(node.data)
            # 递归遍历右子树
            inorder(node.right)

        self.nodes = []
        inorder(root)
        n = len(self.nodes)
        # 计算中位数
        if n % 2 == 1:
            return self.nodes[n // 2]
        else:
            return (self.nodes[n // 2] + self.nodes[n // 2 - 1]) / 2

虽然这种方法逻辑简单，代码可读性高，但在现代工程视角下，它引入了 $O(N)$ 的空间复杂度。当数据量达到百万级时，内存占用将成为不可忽视的瓶颈。这也是我们在面试中会被追问“能否优化空间复杂度”的原因。

2. Morris 中序遍历：极致的空间优化

为了突破空间的限制，我们引入了 Morris 遍历。这是一种非常巧妙且优雅的算法，它利用了叶子节点空余的指针来临时构建遍历路径，从而将空间复杂度降低到 $O(1)$。

在 2026 年的今天，随着边缘计算和物联网设备的普及，能在内存受限的设备上高效运行算法依然是一项核心技能。

#### 核心逻辑与实现

Morris 遍历的核心在于“ threaded binary tree ”（线索二叉树）的思想。当我们访问一个节点时，如果它有左子树，我们就找到左子树的最右节点（前驱节点），并将前驱节点的右指针指向当前节点。这样，当我们遍历完左子树时，可以通过这个临时指针“爬”回到当前节点，而无需使用栈。

为了在一次遍历中同时找到中位数，我们需要结合计数逻辑。以下是结合了 Morris 遍历与计数逻辑的完整生产级代码：

// C++ 实现：Morris 遍历寻找中位数
#include 
#include 

using namespace std;

struct Node {
    int data;
    Node *left, *right;
    Node(int val) : data(val), left(nullptr), right(nullptr) {}
};

class BSTMedian {
public:
    float findMedian(Node* root) {
        if (!root) return 0.0;

        int count = 0; 
        // 第一轮：快速统计节点总数 N
        // 我们可以利用 Morris 遍历的特性，但为了代码清晰，这里展示单次遍历的高级技巧
        // 实际上，为了性能，我们通常可以在一次遍历中完成，但需要处理奇偶性判断
        // 这里我们采用两遍遍历策略：第一遍算 N，第二遍找中间节点
        // 虽然时间常数加倍，但空间复杂度依然 O(1)
        
        int n = countNodes(root);
        
        int currentCount = 0;
        int prevVal = 0, currVal = 0; // 用于存储偶数情况下的中间两个值
        Node* current = root;

        while (current != nullptr) {
            if (current->left == nullptr) {
                // 访问当前节点
                currentCount++;
                if (checkMedian(currentCount, n)) {
                    handleMedianUpdate(current->data, currentCount, n, prevVal, currVal);
                }
                current = current->right;
            } else {
                Node* predecessor = current->left;
                while (predecessor->right != nullptr && predecessor->right != current) {
                    predecessor = predecessor->right;
                }

                if (predecessor->right == nullptr) {
                    // 建立线索
                    predecessor->right = current;
                    current = current->left;
                } else {
                    // 断开线索，表示左子树已处理完毕
                    predecessor->right = nullptr;
                    currentCount++;
                    if (checkMedian(currentCount, n)) {
                        handleMedianUpdate(current->data, currentCount, n, prevVal, currVal);
                    }
                    current = current->right;
                }
            }
        }
        
        return (n % 2 == 1) ? (float)currVal : (prevVal + currVal) / 2.0;
    }

private:
    int countNodes(Node* root) {
        int count = 0;
        Node* curr = root;
        while (curr) {
            if (curr->left == nullptr) {
                count++;
                curr = curr->right;
            } else {
                Node* pre = curr->left;
                while (pre->right && pre->right != curr) pre = pre->right;
                if (pre->right == nullptr) {
                    pre->right = curr;
                    curr = curr->left;
                } else {
                    pre->right = nullptr;
                    count++;
                    curr = curr->right;
                }
            }
        }
        return count;
    }

    // 辅助函数：判断当前是否是中位数位置
    bool checkMedian(int curr, int total) {
        if (total % 2 == 1) return curr == (total / 2 + 1);
        return (curr == total / 2) || (curr == total / 2 + 1);
    }

    // 辅助函数：更新记录中位数数值
    void handleMedianUpdate(int val, int curr, int total, int& prev, int& currStored) {
        if (total % 2 == 1) {
            if (curr == (total / 2 + 1)) currStored = val;
        } else {
            if (curr == total / 2) prev = val;
            if (curr == total / 2 + 1) currStored = val;
        }
    }
};

代码解析：

我们注意到在上述实现中，巧妙地结合了计数与值的更新。通过 checkMedian 函数，我们精确地捕获了中间位置的节点，而无需存储整个数组。这正是我们在工程实践中追求的“按需计算”理念。

3. 2026 年技术视角：Vibe Coding 与 AI 辅助开发

作为身处 2026 年的工程师，我们不仅要会写算法，还要懂得如何利用现代工具链来提升开发效率。在这个“Vibe Coding”（氛围编程）和 AI 辅助编程盛行的时代，我们的开发方式发生了深刻的变革。

#### AI 是我们的结对编程伙伴

当我们面对上述 BST 中位数问题时，我们不再是孤独的编码者。

想象一下这样的场景：我们打开 Cursor 或 Windsurf 这样的 AI 原生 IDE，我们首先做的不是直接写代码，而是与 AI 进行对话。

需求分析：我们向 AI 描述：“我们有一个 BST，需要在不使用额外数组的情况下找中位数。” AI 会立刻建议我们关注 Morris 遍历，并解释其原理。
代码生成与补全：在我们手动构建核心循环结构时，AI 会自动补全指针移动的逻辑，甚至提示我们潜在的内存泄漏风险（例如在 Morris 遍历中忘记断开临时链接导致的无限循环）。
多模态调试：当代码运行结果不符时，我们可以直接将 BST 的结构画成图发给 AI（多模态交互），AI 结合图表和代码，能迅速定位到是前驱节点查找逻辑有误。

这种“你思考架构，AI 填充细节”的协作模式，让我们能专注于解决业务问题，而非纠缠于语法错误。但这并不意味着我们可以放弃对底层原理的理解。相反，只有深刻理解了 Morris 遍历的指针走向，我们才能写出精准的 Prompt，引导 AI 生成高质量的代码。

4. 工程化与生产环境考量

在算法竞赛中，我们只需要通过测试用例。但在生产环境中，我们还需要考虑更多的边界情况和长期维护问题。

#### 并发安全与不可变性

如果我们正在构建一个高并发的金融交易系统，其中的 BST 实时记录了用户的交易金额并需要输出中位数作为基准。上述的 Morris 遍历虽然节省空间，但它会临时修改树的结构（修改 right 指针）。

这是一个巨大的隐患。在多线程环境下，如果另一个线程在遍历过程中试图读取这棵树，可能会因为指针被篡改而导致崩溃或数据不一致。

解决方案：

读写锁：在遍历期间加写锁。但这会降低并发性能。
Copy-on-Write (COW)：遍历前复制树结构，但这违背了节省空间的初衷。
推荐方案：在代码逻辑中加入版本控制或原子操作检查。如果必须使用 Morris，确保它是单线程独占的；或者在应用层面维护一个跳表或红黑树，它们在查找统计量时往往比普通 BST 更友好。

#### 性能监控与可观测性

在现代云原生架构中，我们的算法往往运行在无服务器容器中。我们需要监控这个“中位数计算”函数的延迟。

我们会建议在代码中加入如下埋点（以 OpenTelemetry 为例）：

# 伪代码示例：添加可观测性
from opentelemetry import trace

def findMedianWithTracing(root):
    tracer = trace.get_tracer(__name__)
    with tracer.start_as_current_span("BST.FindMedian") as span:
        # 记录树的大致深度，用于性能分析
        depth = estimate_depth(root)
        span.set_attribute("tree.estimated_depth", depth)
        
        result = morris_traversal_logic(root)
        
        span.set_attribute("calculation.result", result)
        return result

通过监控 tree.estimated_depth 和计算耗时，我们可以在 Grafana 面板中观察到，当树极度不平衡（退化成链表）时，Morris 遍历的性能是否依然符合 SLA（服务等级协议）。如果发现延迟飙升，我们可能需要触发后台任务对树进行平衡化重构。

5. 总结

从简单的数组存储到精妙的 Morris 遍历，从手动编写循环到 AI 辅助的 Vibe Coding，寻找 BST 中位数这一经典问题在不同时代有着不同的解法。

我们在 2026 年编写代码时，不仅是在与机器对话，更是在与未来的维护者对话。选择 Morris 遍历是对计算资源的尊重，而加入完善的安全检查和监控埋点，则是对工程质量的坚守。希望这篇文章不仅能帮你掌握算法，更能启发你在现代开发流程中如何思考、如何协作。让我们继续探索，用代码构建更美好的未来。

投稿给我们	如何建站？
vps是什么？	如何安装宝塔？
如何通过博客赚钱？	便宜wordpress托管方案
免费wordpress主题	这些都是免费方案

豆丁博客