Python 图算法指南：深入解析深度优先搜索 (DFS) 的原理与实现

2026-02-04 04:20:21 0条评论 67次阅读 0人点赞

在处理与图相关的复杂问题时，选择正确的遍历策略往往能起到事半功倍的效果。在本文中，我们将深入探讨图论中最基础且核心的算法之一——深度优先搜索（Depth First Search，简称 DFS）。无论你是想检测图中的环、寻找路径，还是进行拓扑排序，理解 DFS 的工作原理都是至关重要的一步。我们将从基本概念出发，通过详细的代码示例和实际应用场景，带你全面掌握这一技术。

什么是深度优先搜索 (DFS)？

如果你熟悉数据结构中的树（Tree），那么理解图的 DFS 会变得非常简单。图的深度优先遍历与树的深度优先遍历在逻辑上是非常相似的。唯一的区别在于：树是一种没有环的特殊图，而普通的图可能包含环（即一个节点可能通过不同的路径再次被访问）。

为什么这是一个需要注意的点？ 因为如果图中存在环，我们的遍历算法可能会陷入“无限循环”，在几个节点之间永远打转。为了解决这个问题，我们需要使用一个布尔类型的数组或集合（通常称为 visited 集合）来记录我们已经访问过的节点。一旦某个节点被标记为“已访问”，我们在后续的遍历中就会跳过它，从而避免重复处理。

值得注意的是，一个图可以有不止一种 DFS 遍历顺序。这取决于我们如何存储邻接节点，以及我们按照什么顺序选择相邻顶点。在本文的示例中，我们将按照邻接表中的插入顺序来选择节点。

DFS 的工作原理：从理论到图解

让我们通过一个直观的例子来理解 DFS 是如何工作的。DFS 的核心思想是“一条路走到黑”。它从起始节点出发，沿着一个分支尽可能深地探索，直到无法继续为止，然后“回溯”到上一个节点，探索另一条未尝试的分支。

#### 示例 1：无向图的遍历

输入： adj = [[1, 2], [0, 2], [0, 1, 3, 4], [2], [2]]

假设我们有一个包含 5 个节点（0 到 4）的无向图，边的关系如上所示（例如节点 0 连接到节点 1 和 2）。让我们以 节点 1 作为源节点开始遍历。

遍历步骤解析：

起点 (1): 我们从节点 1 开始。首先将其标记为已访问，并打印它。

* 当前路径: 1

移动到 0: 我们查看节点 1 的邻居（节点 0 和 2）。假设按顺序先遇到 0。由于 0 未被访问，我们递归进入节点 0。

* 当前路径: 1 -> 0

从 0 探索: 节点 0 的邻居是 1 和 2。节点 1 已经访问过了，所以我们忽略它。接着访问节点 2。

* 当前路径: 1 -> 0 -> 2

深入 2: 节点 2 的邻居包括 0, 1, 3, 4。0 和 1 都已访问。接下来访问 3。

* 当前路径: 1 -> 0 -> 2 -> 3

节点 3 是死胡同: 节点 3 只连接到 2（已访问）。没有路可走了，执行回溯，返回到节点 2。
继续从 2 探索: 回到节点 2 后，我们检查剩下的邻居。接下来访问节点 4。

* 当前路径: 1 -> 0 -> 2 -> 4

节点 4 也是死胡同: 节点 4 只连接到 2。再次回溯到节点 2。
结束: 节点 2 的所有邻居都已访问完毕。回溯到 0，再回溯到 1。节点 1 的邻居也访问完毕。程序结束。

最终输出: 1 0 2 3 4

#### 示例 2：不同的图结构

为了让你更透彻地理解，我们再来看一个输入。

输入: [[2,3,1], [0], [0,4], [0], [2]]

这次我们以 节点 0 作为源点。

遍历步骤解析：

起点 (0): 访问 0。
移动到 2: 访问邻居 2。
移动到 4: 从 2 移动到 4（因为 0 已访问）。
回溯: 4 没有未访问的邻居，回溯到 2，再回溯到 0。
移动到 3: 回到 0 后，尝试下一个邻居 3。
回溯: 3 没有未访问的邻居，回溯到 0。
移动到 1: 最后访问邻居 1。

最终输出: 0 2 4 3 1

Python 代码实现：邻接表与递归

在 Python 中，我们可以使用多种方式来表示图。最常用且高效的方法是使用邻接表。这里我们将使用 defaultdict 来构建我们的图结构，并采用递归的方式来实现 DFS 逻辑。递归实现代码简洁，非常符合 DFS “一直往下走”的定义。

#### 基础实现示例

让我们看看完整的代码实现。为了便于你理解，我在代码中添加了详细的中文注释。

from collections import defaultdict

# 这个类使用邻接表来表示有向图
class Graph:

    def __init__(self):
        # 使用 defaultdict(list) 可以方便地处理不存在的键
        # 当访问新节点时，它会自动初始化为一个空列表
        self.graph = defaultdict(list)

    # 向图中添加边的函数
    # u 是起始顶点，v 是目标顶点
    def addEdge(self, u, v):
        self.graph[u].append(v)

    # DFS 的核心递归辅助函数
    def DFSUtil(self, v, visited):
        # 第一步：标记当前节点为已访问
        visited.add(v)
        # 打印当前节点（或者进行其他处理操作）
        print(v, end=‘ ‘)

        # 第二步：递归处理所有与该顶点相邻的顶点
        # self.graph[v] 获取了所有邻居
        for neighbour in self.graph[v]:
            if neighbour not in visited:
                # 如果邻居没被访问过，就对它调用 DFS
                # 这就是“深度优先”的体现：优先处理邻居，而不是平级的节点
                self.DFSUtil(neighbour, visited)

    # 进行 DFS 遍历的主函数
    def DFS(self, v):
        # 创建一个集合来存储已访问的顶点
        # 使用集合是因为它的查找时间复杂度是 O(1)
        visited = set()

        # 调用递归辅助函数来启动遍历
        self.DFSUtil(v, visited)

# 驱动代码
if __name__ == "__main__":
    g = Graph()
    # 让我们构建一个更复杂的图来测试
    g.addEdge(0, 1)
    g.addEdge(0, 2)
    g.addEdge(1, 2)
    g.addEdge(2, 0)
    g.addEdge(2, 3)
    g.addEdge(3, 3)
    g.addEdge(3, 4) # 额外添加一条边

    print("从节点 2 开始的深度优先遍历结果:")
    
    # 函数调用，从节点 2 开始
    # 预期逻辑: 2 -> 0 -> 1 -> (回到0) -> (回到2) -> 3 -> 4
    g.DFS(2)
    print() # 换行

代码解析：

数据结构 (defaultdict): 我们使用它来存储图，其中键是节点，值是该节点指向的所有邻居列表。这比使用二维矩阵（邻接矩阵）更节省空间，尤其是对于稀疏图。

n2. INLINECODEad22eff4 集合: 这是防止死循环的关键。每当我们进入一个节点，先把它放进这个集合。下次遇到它时，通过 INLINECODE81cb27a9 检查，直接跳过。

n3. 递归逻辑 (INLINECODEf37e4281): 这是一个典型的深度优先逻辑。INLINECODE672308b3 循环会遍历当前节点的所有邻居，只要发现一个没访问过的，立刻暂停当前节点的循环，跳进去执行那个邻居的逻辑。只有当那个邻居的所有路径都走完了，程序才会返回（回溯），继续当前节点 for 循环的下一个邻居。

#### 进阶示例：处理非连通图

上面的代码有一个局限性：它只能遍历从起始点可达的所有节点。如果图是“非连通图”（即图中有几个互相隔离的孤岛），普通的 DFS 无法遍历整个图。

让我们升级一下代码，使其能够处理非连通图，即遍历图中的每一个节点，无论它是否与起点相连。我们通常称这种变体为“处理所有分量的 DFS”。

from collections import defaultdict

class Graph:
    def __init__(self):
        self.graph = defaultdict(list)

    def addEdge(self, u, v):
        self.graph[u].append(v)
        # 注意：如果图是无向图，通常还需要加下面这行：
        # self.graph[v].append(u)

    def DFSUtil(self, v, visited):
        visited.add(v)
        print(v, end=‘ ‘)
        for neighbour in self.graph[v]:
            if neighbour not in visited:
                self.DFSUtil(neighbour, visited)

    # 改进后的 DFS 遍历函数
    def DFS_Full(self):
        visited = set()
        # 我们不再只传入一个起始点，而是遍历图中所有存在的节点
        # 这里的 self.graph 包含了所有有出度的节点
        # 为了严谨，我们可能需要知道所有节点的集合（包括没有出度的孤立点）
        # 这里假设 keys 包含了我们需要考虑的所有起始节点
        
        all_nodes = list(self.graph.keys())
        # 在实际应用中，all_nodes 可能应该包含图中所有出现的节点ID
        
        for node in all_nodes:
            if node not in visited:
                # 如果这个节点没被访问过，说明它是一个新的连通分量
                # 或者是之前遍历未触及的区域
                print(f"
发现新的连通分量，从节点 {node} 开始:")
                self.DFSUtil(node, visited)

# 测试非连通图
if __name__ == "__main__":
    g = Graph()
    # 分量 1: 0 -> 1 -> 2
    g.addEdge(0, 1)
    g.addEdge(1, 2)
    # 分量 2: 3 -> 4
    g.addEdge(3, 4)
    
    print("完整图遍历 (处理非连通图):")
    g.DFS_Full()

在这个改进版本中，我们外层套了一个 for 循环。这保证了即使图被切分成多段，我们也能走遍每一个角落。

实战应用：DFS 能做什么？

理解算法只是第一步，知道在哪里使用它才是关键。以下是 DFS 在实际开发中的几个常见场景：

路径查找: 我们可以修改 INLINECODEc70a223a，在找到目标节点时返回 INLINECODEcd22ee5b 或记录路径，从而判断两点之间是否存在路径。
拓扑排序: 这是任务调度（如课程选修顺序、构建系统依赖）的核心算法。通过对有向无环图 (DAG) 进行 DFS，我们可以得到线性的排序顺序。
检测环: 在遍历过程中，如果我们遇到了一个已经在当前递归栈中的节点（即已经访问过且还未回溯），说明图中存在环。这对于检测死锁依赖非常有用。
连通性检查: 判断图中的所有节点是否都互相连通（例如，网络中的所有计算机是否都能互相通信）。
迷宫求解: 把迷宫看作格子图，DFS 就是一只不撞南墙不回头的“老鼠”，帮你找到出口。

常见陷阱与最佳实践

在使用 DFS 时，你可能会遇到一些“坑”。作为经验丰富的开发者，让我们来看看如何避免它们：

1. 栈溢出

最常见的问题是递归深度过大。如果你的图非常深（比如一条链路有几万个节点），Python 的默认递归限制（通常是 1000）会被触发，导致 RecursionError。

解决方案: 我们可以使用显式的栈数据结构来代替递归，实现迭代式 DFS。这虽然代码稍微复杂一点（需要手动管理回溯逻辑），但不会受递归深度限制的影响。

# 迭代式 DFS 示例（使用栈）
def DFS_Iterative(self, v):
    visited = set()
    stack = [v] # 使用列表模拟栈
    
    while stack:
        # 弹出栈顶元素
        node = stack.pop()
        
        if node not in visited:
            print(node, end=‘ ‘)
            visited.add(node)
            
            # 将邻居压入栈中
            # 注意：为了保持与递归类似的顺序，可能需要逆序压入
            # 这里取决于具体需求，通常不需要严格顺序
            for neighbour in self.graph[node]:
                if neighbour not in visited:
                    stack.append(neighbour)

2. 忘记回溯状态

在某些复杂的 DFS 变体中（例如查找所有可能的路径），我们需要在递归返回后将当前节点从 visited 中移除（这叫做“清理状态”），以便其他路径也能访问该节点。但在标准的 DFS 遍历中，一旦访问过就永远标记为已访问，这点要区分清楚。

3. 无向图与有向图的区别

在构建无向图时，记得双向添加边 (INLINECODE2d90f285 和 INLINECODEcb727c31)。如果你只加单向，你的 DFS 就会“半路断掉”，找不到原本存在的路。

复杂度分析：性能如何？

我们在设计算法时，必须关注它的效率。

时间复杂度: O(V + E)

* V: 顶点的数量。每个顶点会被访问一次。

n * E: 边的数量。在遍历过程中，我们基本上会检查每条边两次（对于无向图）或一次（有向图），以确定邻居是否被访问过。因此，总时间与图中顶点和边的总和成正比。这已经是图遍历算法的最优时间复杂度。

辅助空间: O(V)

* 我们需要一个 visited 集合来存储 V 个顶点的状态。

* 递归调用栈的深度在最坏情况下也是 O(V)（例如图是一条直线）。如果你使用迭代式 DFS，显式栈的空间同样也是 O(V)。

总结

在这篇文章中，我们深入探讨了图的深度优先搜索 (DFS)。从避免环的处理到递归与迭代的代码实现，再到实际应用场景，我们已经掌握了在 Python 中处理图遍历的核心技能。

关键要点回顾：

DFS 通过“尽可能深”地探索节点并使用回溯机制来工作。
务必使用 visited 集合来防止无限循环和重复处理。
递归实现直观，但在处理极深图时要注意栈溢出风险，迭代式实现是更稳健的替代方案。
DFS 是解决路径查找、拓扑排序和环检测等复杂问题的基石。

接下来，我建议你可以尝试自己实现一个“迷宫寻路”小游戏，或者去探索一下基于 DFS 扩展出的算法，比如查找连通分量或者计算图的着色问题。祝你编码愉快！

投稿给我们	如何建站？
vps是什么？	如何安装宝塔？
如何通过博客赚钱？	便宜wordpress托管方案
免费wordpress主题	这些都是免费方案

豆丁博客