Python 列出目录中的文件

2026-02-04 19:30:53 0条评论 103次阅读 0人点赞

在处理文件系统交互时，我们经常需要编写脚本来获取目录中的特定文件。在过去的几年里，我们可能习惯于直接使用 os.listdir，但在 2026 年，随着项目规模扩大和 AI 辅助编程的普及，我们更倾向于编写类型安全、异步且可读性更强的代码。

在本文中，我们将深入探讨多种在 Python 中列出目录内容的方法。我们不仅会回顾经典的 INLINECODE7e26a1b4 和 INLINECODE731e2244 模块，还会结合现代 Python 开发的最佳实践，展示如何构建健壮的文件处理逻辑，以及如何在现代开发工作流中利用 AI 辅助工具来加速这一过程。

#### 目录

当代 Python 中的文件操作演变
核心 API：INLINECODEffb0d0ca、INLINECODE0d8725a2 与现代 pathlib
生产环境实践：性能与健壮性
2026 开发趋势：AI 辅助与类型安全

1 当代 Python 中的文件操作演变
2 核心 API：深入解析与实战
3 生产环境实践：性能与健壮性
4 2026 开发趋势：AI 辅助与类型安全
5 总结

当代 Python 中的文件操作演变

目录在本质上仍然是文件系统的组织单元，但在现代应用架构中，我们处理文件的方式发生了变化。无论是处理本地日志、分析云存储中的数据湖，还是管理用户上传的资产，高效的文件遍历都是基础。
让我们思考一下这个场景： 你正在构建一个数据处理管道。在早期的 Python 版本中，我们可能会编写脚本式的代码来遍历文件夹。但到了 2026 年，我们更倾向于使用 pathlib 这样的面向对象路径库，结合异步 I/O 来处理大规模文件系统交互。

我们将介绍以下几种核心方法，并分享在实际工程中如何权衡它们的使用：

OS 模块：底层且强大的传统方式。
Glob 模块：基于模式匹配的便捷方式。
Pathlib：现代、面向对象的路径处理标准（2026 推荐）。

核心 API：深入解析与实战

使用 OS 模块：经典与底层控制

OS 模块提供了与操作系统直接交互的接口。虽然略显底层，但在某些需要精细控制的场景下依然非常有用。

#### 1. 使用 os.listdir() 获取基础列表

这是最直观的方法，但它混合了文件和文件夹。

让我们来看一个实际的例子：

import os
import sys

def list_files_basic(path: str):
    """
    获取指定目录下的所有文件和子目录。
    注意：此方法仅遍历第一层，且不区分文件和目录。
    """
    try:
        # 获取列表
        entries = os.listdir(path)
        print(f"在目录 ‘{path}‘ 中发现的内容:")
        for entry in entries:
            print(f"- {entry}")
    except FileNotFoundError:
        print(f"错误：目录 ‘{path}‘ 不存在。", file=sys.stderr)
    except PermissionError:
        print(f"错误：没有权限访问 ‘{path}‘。", file=sys.stderr)

# 使用示例
# list_files_basic(r"C://Users//Documents")

#### 2. 仅筛选文件：更健壮的实现

在实际项目中，我们通常只需要文件，不需要子目录。我们可以利用列表推导式结合 os.path.isfile 来过滤。

import os

def get_only_files(path: str) -> list[str]:
    """
    返回目录中仅包含文件（排除子目录）的列表。
    """
    if not os.path.exists(path):
        return []
    
    # 使用列表推导式过滤，仅保留文件
    # 这里的 os.path.join 确保我们在 Windows 和 Linux 上都能正确处理路径
    all_entries = os.listdir(path)
    files = [f for f in all_entries if os.path.isfile(os.path.join(path, f))]
    return files

# 示例：获取特定目录下的文件
# files = get_only_files(r"./data")
# print(files)

#### 3. 遍历目录树：os.walk() 的深度应用

当我们需要递归查找子目录中的文件时（例如，在一个复杂的项目根目录下查找所有的 Python 文件），os.walk() 是标准的选择。它生成一个三元组：

import os

def find_specific_files(root_path: str, extension: str):
    """
    递归遍历目录树，查找特定扩展名的文件。
    
    Args:
        root_path: 根目录路径
        extension: 目标文件扩展名 (例如 ‘.txt‘)
    """
    matched_files = []
    
    # os.walk 遍历目录树
    for dirpath, dirnames, filenames in os.walk(root_path):
        for filename in filenames:
            if filename.endswith(extension):
                # 构建完整的绝对路径
                full_path = os.path.join(dirpath, filename)
                matched_files.append(full_path)
                # 如果只想打印文件名：
                # print(f"Found: {filename} in {dirpath}")
                
    return matched_files

# 使用场景：在项目中查找所有配置文件
# configs = find_specific_files(r"./project_root", ".json")

使用 Glob 模块：模式匹配的艺术

如果你使用过命令行，你一定喜欢 INLINECODE5a86da17 这种通配符写法。Python 的 INLINECODEe01f9121 模块将这种能力带入了代码中。它基于 os.listdir，但提供了更高级的接口。

#### 示例：使用 glob 过滤文件类型

import glob
import os

def find_images(directory: str):
    """
    查找目录下所有的图片文件（支持多种格式）。
    """
    # 常见的图片扩展名
    extensions = [‘*.png‘, ‘*.jpg‘, ‘*.jpeg‘, ‘*.gif‘]
    found_files = []
    
    for ext in extensions:
        # os.path.join 用于构建跨平台的搜索模式
        # recursive=True 允许使用 ** 来匹配子目录 (Python 3.5+)
        pattern = os.path.join(directory, ‘**‘, ext)
        files = glob.glob(pattern, recursive=True)
        found_files.extend(files)
        
    return found_files

# 这就非常适合批量处理数据的场景
# images = find_images(r"C://Users//Photos")
# print(f"Found {len(images)} images.")

生产环境实践：性能与健壮性

在我们的实际开发经验中，简单的方法往往隐藏着陷阱。当我们把代码部署到生产环境，处理包含成千上万个文件的目录时，性能和错误处理就成了关键。

为什么我们在 2026 年更倾向于 `pathlib`？

在 Python 3.4 之后引入的 INLINECODE09eded01 提供了一种面向对象的处理路径的方式。它比 INLINECODE01e21e78 更直观，且更容易维护。

#### 现代 Python 实战：使用 pathlib

让我们看一下如何用现代方式重写文件查找逻辑：

from pathlib import Path
from typing import List

def list_files_modern(directory: str, pattern: str = "*") -> List[Path]:
    """
    使用 pathlib 列出文件。
    
    Args:
        directory: 目标目录路径字符串
        pattern: glob 模式，默认为所有文件
    
    Returns:
        Path 对象列表
    """
    path = Path(directory)
    
    # 检查路径是否存在，避免潜在的 IO 错误
    if not path.exists():
        raise FileNotFoundError(f"目录不存在: {directory}")

    if not path.is_dir():
        raise NotADirectoryError(f"路径不是目录: {directory}")

    # rglob 是递归 glob，等同于 **/*
    # 这里的 glob 生成器非常高效，不会一次性加载所有文件到内存
    return [p for p in path.rglob(pattern) if p.is_file()]

# 使用示例
# try:
#     files = list_files_modern(r"./logs", "*.log")
#     for file in files:
#         print(f"Processing {file.name}...")
# except Exception as e:
#     print(f"处理出错: {e}")

性能对比与优化策略

在我们最近的一个云原生项目中，我们需要在一个包含 100,000+ 个小文件的目录中查找日志。

os.listdir()：虽然快，但它返回的是字符串，我们需要手动拼接路径，容易出错。
INLINECODE9e08f0a1（Python 3.5 引入）：这是一个性能怪兽。它返回 INLINECODE2734f3bd 对象，包含了文件属性信息。如果我们只需要读取文件属性而不需要文件内容，它的速度比 os.listdir 快得多（在某些文件系统上快 2-3 倍）。

专家建议： 如果你正在构建高性能文件扫描工具，优先使用 INLINECODEef2edb34 或 INLINECODE3d2d9ff8（其底层在 Python 3.12+ 中已针对性能进行了优化）。

边界情况与容灾处理

在生产环境中，我们踩过很多坑，这里分享几点经验：

权限问题：你的脚本可能有权访问文件夹，但无法读取其中的特定文件（特别是 Linux 系统下的 INLINECODEe882c3f8 或受保护的系统目录）。务必使用 INLINECODEfb3e8316 块包裹文件操作。
符号链接：默认情况下，INLINECODE39136277 会跟随符号链接。如果不小心处理，这可能导致无限递归（死循环）。在 2026 年，我们建议显式设置 INLINECODE718a5a71，或者严格限制递归深度。
文件名编码：在处理包含非 ASCII 字符（如中文、emoji）的文件名时，Windows 和 Linux 行为不同。使用 pathlib 可以自动处理大部分底层编码差异。

2026 开发趋势：AI 辅助与类型安全

作为新时代的工程师，我们不仅要写出能跑的代码，还要写出能被 AI 理解、易于协作的代码。

Agentic AI 与 Cursor/Windsurf 时代的开发流

在 2026 年，你很可能正在使用 Cursor、Windsurf 或 GitHub Copilot Workspace。当你需要编写文件遍历逻辑时，不要直接写代码。

试着这样与你的结对编程伙伴沟通：

"帮我写一个 Python 函数，使用 INLINECODE1d4b18f2 遍历 INLINECODE500e1b04 目录下所有的 INLINECODE4de4d197 文件，排除 INLINECODEa4c88a46 文件夹，并返回最后修改时间。"

你会发现，生成的代码通常会直接包含类型提示和文档字符串。我们建议：在提示词中明确指定使用 INLINECODE94a316b8 和 INLINECODE99b8379f，以强制 AI 生成性能更优的代码。

类型安全与 Linting

注意看我们上面的现代示例，使用了 INLINECODE776104d9 和 INLINECODE94c109f6。这在大型项目中至关重要。如果你使用 mypy 进行静态类型检查，明确的类型能让你在运行前就发现路径拼接错误。

陷阱提示： 许多旧代码库不区分文件名（字符串）和路径。这在跨平台迁移时（比如从 Windows 迁移到 Linux Docker 容器）会引发灾难。从现在开始，坚持使用 Path 对象。

异步文件 I/O：面向未来的架构

虽然 Python 的标准文件 I/O 是阻塞的，但在高并发 Web 服务（如 FastAPI）中，阻塞式磁盘扫描会拖慢整个事件循环。对于高性能要求，2026 年的趋势是结合 aiofiles 使用异步文件操作，或者将文件扫描任务卸载到独立的 Worker 线程中执行。

# 这是一个简化的异步思路示例
import asyncio
from pathlib import Path

async def async_get_files(path: str):
    # 在实际生产中，这里会使用 run_in_executor 避免阻塞事件循环
    loop = asyncio.get_event_loop()
    def blocking_scan():
        p = Path(path)
        return [f for f in p.rglob("*") if f.is_file()]
    
    files = await loop.run_in_executor(None, blocking_scan)
    return files

总结

在 2026 年，列出目录中的文件看似简单，实则蕴含着工程化的深意。

如果你只是写一个一次性脚本，INLINECODE2b306d2d 或 INLINECODE2d44af9d 足以应对。
如果你正在构建生产级应用，请拥抱 INLINECODEafaf52c9 和 INLINECODEe7c59329，注重异常处理和类型提示。
不要忘记利用 AI 辅助工具 来生成样板代码，但作为专家，你必须审查其性能和安全性。

希望这篇文章不仅能帮你解决“如何列出文件”的问题，更能帮助你理解在现代化的 Python 开发环境中，如何写出更优雅、更健壮的代码。

投稿给我们	如何建站？
vps是什么？	如何安装宝塔？
如何通过博客赚钱？	便宜wordpress托管方案
免费wordpress主题	这些都是免费方案

豆丁博客

Python 列出目录中的文件

当代 Python 中的文件操作演变

核心 API：深入解析与实战

使用 OS 模块：经典与底层控制

使用 Glob 模块：模式匹配的艺术

生产环境实践：性能与健壮性

为什么我们在 2026 年更倾向于 `pathlib`？

性能对比与优化策略

边界情况与容灾处理

2026 开发趋势：AI 辅助与类型安全

Agentic AI 与 Cursor/Windsurf 时代的开发流

类型安全与 Linting

异步文件 I/O：面向未来的架构

总结

相关文章美国1G带宽/1T流量高速vps $17.99/年

Python 列出目录中的文件

当代 Python 中的文件操作演变

核心 API：深入解析与实战

使用 OS 模块：经典与底层控制

使用 Glob 模块：模式匹配的艺术

生产环境实践：性能与健壮性

为什么我们在 2026 年更倾向于 pathlib？

性能对比与优化策略

边界情况与容灾处理

2026 开发趋势：AI 辅助与类型安全

Agentic AI 与 Cursor/Windsurf 时代的开发流

类型安全与 Linting

异步文件 I/O：面向未来的架构

总结

相关文章美国1G带宽/1T流量高速vps $17.99/年

为什么我们在 2026 年更倾向于 `pathlib`？