Python 目录遍历全攻略：高效处理文件夹与文件的终极指南

2026-02-09 14:02:30 0条评论 19次阅读 0人点赞

在日常的开发工作中，我们经常需要面对这样的场景：给定一个充满日志的文件夹，或者包含数百个数据文件的目录，我们的任务是逐一读取它们的内容进行清洗、分析或转换。当文件数量不多时，手动操作或许可行，但随着数据量的增长，自动化成为了必然选择。这就引出了我们今天要探讨的核心主题——如何使用 Python 优雅且高效地遍历文件夹和文件。

在这篇文章中，我们将深入探讨 Python 中处理文件系统遍历的几种主流方法。从基础的 INLINECODE75f9e56e 模块到现代的 INLINECODE4ccf112e，再到强大的 glob 模式匹配，我们将通过实际的代码示例和原理剖析，带你掌握这些工具的最佳实践。无论你是需要处理单层目录，还是需要递归遍历复杂的目录树，亦或是需要根据特定模式筛选文件，这里都有你需要的答案。

1 1. 任务背景与基础概念
2 2. 使用 os.scandir()：高效遍历的首选
3 3. 拥抱 pathlib：面向对象的文件路径操作
4 4. 递归遍历：使用 os.walk() 攻克目录树
5 5. 高级筛选：使用 glob 模块查找特定文件
6 6. 常见错误与性能优化建议
7 总结与下一步

1. 任务背景与基础概念

假设我们手头有一个名为 docs 的文件夹，里面存放了三个文本文件。我们的目标非常明确：编写一个 Python 脚本，能够自动“走进”这个文件夹，识别出其中的每一个文件，打开它，读取内容，并最后打印出文件名和对应的文本。

场景示例

让我们先定义一个清晰的文件结构作为我们的测试基准：

> 文件夹结构：

> docs/

> ├── a.txt -> 内容为 "Hello"

> ├── b.txt -> 内容为 "Python"

> └── c.txt -> 内容为 "Files"

期望的运行结果：

a.txt  Hello
b.txt  Python
c.txt  Files

要实现这一目标，Python 提供了多种途径。其核心原理在于：程序需要向操作系统发起请求，获取目录项列表，判断哪些是文件，哪些是子目录，进而对文件执行 I/O 操作。让我们从最基础的库开始看起。

2. 使用 os.scandir()：高效遍历的首选

在处理文件系统遍历时，INLINECODE191d9111 模块是我们最早接触的经典工具。而在 Python 3.5 及以后的版本中，INLINECODE313dfee8 方法成为了遍历目录的新宠。

为什么选择 os.scandir()？

与老旧的 INLINECODEa63be430 相比，INLINECODEfacbb594 不仅返回文件名，还返回了包含丰富属性的 DirEntry 对象。这意味着我们在判断文件类型时，不需要再进行额外的系统调用来获取文件属性，从而显著提高了遍历速度，尤其是在 Windows 系统上，性能提升尤为明显。

代码实战

下面是一个使用 INLINECODE39804f98 的完整示例。请注意，它直接提供了文件的完整路径（INLINECODE3ca16dcd），省去了手动拼接字符串的麻烦。

import os

# 定义目标文件夹路径
# 这里的 r 前缀表示“原始字符串”，防止反斜杠被转义
folder_path = r"C:\Users\Public\Documents"

# 使用 os.scandir() 获取目录迭代器
with os.scandir(folder_path) as entries:
    for entry in entries:
        # 使用 is_file() 方法检查是否为文件（过滤掉文件夹）
        if entry.is_file():
            print(f"找到文件: {entry.name}")
            
            # entry.path 直接提供了文件的绝对路径，无需 os.path.join
            try:
                with open(entry.path, "r", encoding="utf-8") as f:
                    content = f.read()
                    print(f"内容摘要: {content[:20]}...") # 仅打印前20个字符
            except UnicodeDecodeError:
                print("(无法解码该文件，可能是二进制文件)")
            except Exception as e:
                print(f"读取错误: {e}")

深入解析

entry.is_file(): 这是一个非常便捷的方法，它不仅检查路径是否指向文件，还能过滤掉符号链接等特殊情况，比单纯检查字符串更安全。
性能优势: 在遍历包含成千上万个文件的目录时，INLINECODEe239e5d6 的内部实现减少了操作系统的 INLINECODEa6aa1dfb 系统调用次数，这使得它比旧版的 listdir 快 3 到 20 倍。

3. 拥抱 pathlib：面向对象的文件路径操作

如果你追求代码的优雅和可读性，Python 3.4 引入的 pathlib 模块绝对值得一试。它将文件系统路径视为对象，而不是普通的字符串，提供了更直观的方法来操作文件和目录。

pathlib 的优势

INLINECODE351df42a 不仅是跨平台的（自动处理 INLINECODE9c65ee4d 和 INLINECODE4753bbbc 的差异），而且它的链式调用风格让代码读起来像英语句子一样自然。对于文件读取，INLINECODE06eaf43f 甚至封装了 read_text() 方法，让你不再需要手动处理文件的打开和关闭。

代码实战

让我们看看如何用 pathlib 重写刚才的任务：

from pathlib import Path

# 创建 Path 对象
# 建议：跨平台脚本中尽量使用正斜杠 / 或 Path() 自动处理
folder_path = Path(r"C:\Users\Public\Documents")

# iterdir() 方法类似于 os.scandir，返回的是生成器
for file in folder_path.iterdir():
    # 检查是否为文件
    if file.is_file():
        print(f"正在处理: {file.name}")
        
        try:
            # 神奇的 read_text()：自动处理 open/close 和文本编码
            content = file.read_text(encoding="utf-8")
            print(f"内容长度: {len(content)} 字符")
        except Exception as e:
            print(f"读取 {file.name} 失败: {e}")

实用技巧：模式匹配

INLINECODE3aced531 的强大之处还在于它内置了 glob 支持。如果你只想处理 INLINECODE7e0ca095 文件，可以这样写：

# 仅查找 .txt 文件
txt_files = folder_path.glob("*.txt")
for file in txt_files:
    print(f"发现文本文件: {file.name}")

4. 递归遍历：使用 os.walk() 攻克目录树

前面的方法仅适用于单层目录。但在现实世界中，我们往往需要处理包含多层嵌套子文件夹的复杂结构。例如，一个项目文件夹里包含了 INLINECODEfa9f2434、INLINECODEe4c97594、INLINECODE11ab742b 等子目录，每个目录下又有各自的文件。这时，INLINECODE51195a48 就派上用场了。

os.walk() 的工作原理

os.walk() 生成的是一个三元组：

当前路径: 正在遍历的文件夹路径。
子目录列表: 当前文件夹下所有子文件夹的名字。
文件列表: 当前文件夹下所有非文件夹文件的名字。

它会像“走”路一样，从顶层目录开始，逐层深入每一个子目录。

代码实战

让我们编写一个脚本来递归查找并读取所有文件：

import os

root_dir = r"C:\Users\Public\Documents"

# os.walk 是一个生成器，遍历目录树
for current_dir, subdirs, files in os.walk(root_dir):
    print(f"正在扫描目录: {current_dir}")
    
    for filename in files:
        # 构建完整的文件路径（必须这一步，因为 filename 只是名字）
        file_path = os.path.join(current_dir, filename)
        
        print(f"  -> 发现文件: {filename}")
        
        try:
            # 使用 errors=‘ignore‘ 来跳过无法解码的字符（如二进制文件）
            with open(file_path, "r", encoding="utf-8", errors="ignore") as f:
                # 这里我们只读取第一行作为预览
                first_line = f.readline()
                print(f"     首行内容: {first_line.strip()}")
        except Exception as e:
            print(f"     读取错误: {e}")

深入解析与最佳实践

路径拼接: 请务必注意 INLINECODEf4cc5bbb。在 INLINECODE5ae0396c 中，INLINECODE68dcd789 列表只包含文件名，不包含路径。直接使用 INLINECODE40d4c035 会导致“FileNotFoundError”，除非你刚好就在那个目录下运行脚本。
控制遍历深度: 如果你不想进入某些特定的子目录（例如 INLINECODE2bd44371 或 INLINECODE4f0763ac），你可以在循环中动态修改 subdirs 列表：

    # 水平思考：在遍历时排除特定文件夹
    for current_dir, subdirs, files in os.walk(root_dir):
        # 不要遍历 __pycache__ 或 .git 文件夹
        subdirs[:] = [d for d in subdirs if d not in (‘__pycache__‘, ‘.git‘)]
        # ... 其余代码

5. 高级筛选：使用 glob 模块查找特定文件

有时候我们并不想遍历所有文件，而是只想找到符合特定模式的文件，比如“所有 2023 年生成的 INLINECODE7f0afd19 文件”或者“所有以 INLINECODE185e1453 开头的 CSV 文件”。这就是 glob 模块大显身手的时候了。

glob 的通配符魔法

glob 模块使用 Unix shell 风格的通配符：

*: 匹配任意字符
?: 匹配单个字符
[]: 匹配指定范围内的字符

代码实战

下面的示例展示了如何查找特定扩展名的文件并处理：

import glob
import os

base_path = r"C:\Users\Public\Documents"

# 使用 glob 查找所有 .txt 和 .pdf 文件
# 注意：os.path.join 或直接字符串拼接都可以，但要注意转义
# 这里我们查找 base_path 下一级的所有文件
search_pattern = os.path.join(base_path, "*.txt") 

file_list = glob.glob(search_pattern)

print(f"找到 {len(file_list)} 个匹配的文件。")

for file_path in file_list:
    # 获取不包含路径的文件名
    file_name = os.path.basename(file_path)
    
    # 确保它是一个文件（glob 也会匹配到目录名，如果目录名符合条件的话）
    if os.path.isfile(file_path):
        print(f"--- 开始读取: {file_name} ---")
        try:
            with open(file_path, "r", encoding="utf-8") as f:
                print(f.read())
        except Exception as e:
            print(f"无法读取文件: {e}")

进阶技巧：递归 glob

如果你想结合 INLINECODEbfa1e6a4 的递归特性和 INLINECODEd6457231 的模式匹配，可以使用 INLINECODE6a77e04a 的 INLINECODE126c218f 参数（Python 3.5+）：

# ** 表示匹配任意层级的子目录
# 这个模式会查找 base_path 下所有子文件夹中的 .py 文件
all_py_files = glob.glob(os.path.join(base_path, "**", "*.py"), recursive=True)

print(f"项目中所有 Python 文件数量: {len(all_py_files)}")

6. 常见错误与性能优化建议

在处理大量文件时，仅仅“能跑通”是不够的。作为经验丰富的开发者，我们需要考虑代码的健壮性和效率。

常见陷阱：编码问题

你一定遇到过 UnicodeDecodeError: ‘utf-8‘ codec can‘t decode byte...。这通常是因为文件不是 UTF-8 编码的（可能是 GBK, ASCII 等）。

解决方案：在 INLINECODE5b6eeec4 函数中使用 INLINECODE23808f1f 或 INLINECODE9c4a6032，或者使用第三方库 INLINECODE34eebd33 来检测文件编码。

性能优化：减少 I/O 操作

文件读写（I/O）是相对昂贵的操作。

批量处理：如果可能，尽量一次性读取文件（如 f.read()），而不是逐行读取（除非文件巨大导致内存不足）。
使用生成器：如 INLINECODE9d2b4bab 和 INLINECODE3a5041ab 返回的是迭代器，它们比一次性返回列表的 os.listdir() 更节省内存，特别是在处理包含数百万文件的目录时。
避免重复的 INLINECODE5f847914：如果你打算直接打开文件，可以先尝试打开，捕获异常，而不是先用 INLINECODE4c266ce6 检查，再用 os.path.isfile 检查，最后才打开。这被称为“Easier to Ask for Forgiveness than Permission” (EAFP) 原则。

总结与下一步

通过这篇文章，我们从零开始，逐步掌握了 Python 中遍历文件夹和文件的四种核心武器：

os.scandir(): 适合需要高性能遍历单层目录的场景。
pathlib: 适合追求代码现代化、可读性以及需要进行复杂路径操作的场景。
os.walk(): 处理多层嵌套目录树的不二之选。
glob: 当你需要根据文件名模式进行筛选时最为便捷。

最佳实践建议：如果你的项目基于 Python 3，我们强烈建议优先采用 INLINECODEfad56f74，它不仅简洁，而且避免了大多数跨平台的路径陷阱。对于极其复杂的递归任务，传统的 INLINECODEbd0eb162 依然是可靠的基石。

现在，你已经拥有了自动化处理文件系统的能力。你可以尝试编写一个脚本，自动整理你的下载文件夹，或者构建一个工具来分析项目代码行数。去实践吧，代码跑起来的那一刻才是最迷人的！

投稿给我们	如何建站？
vps是什么？	如何安装宝塔？
如何通过博客赚钱？	便宜wordpress托管方案
免费wordpress主题	这些都是免费方案

豆丁博客

Python 目录遍历全攻略：高效处理文件夹与文件的终极指南

1. 任务背景与基础概念

场景示例

2. 使用 os.scandir()：高效遍历的首选

为什么选择 os.scandir()？

代码实战

深入解析

3. 拥抱 pathlib：面向对象的文件路径操作

pathlib 的优势

代码实战

实用技巧：模式匹配

4. 递归遍历：使用 os.walk() 攻克目录树

os.walk() 的工作原理

代码实战

深入解析与最佳实践

5. 高级筛选：使用 glob 模块查找特定文件

glob 的通配符魔法

代码实战

进阶技巧：递归 glob

6. 常见错误与性能优化建议

常见陷阱：编码问题

性能优化：减少 I/O 操作

总结与下一步

相关文章美国1G带宽/1T流量高速vps $17.99/年