如何使用 Boto3 高效列出 S3 存储桶：从入门到最佳实践

2026-02-08 01:27:24 0条评论 2次阅读 0人点赞

在日常的云架构管理和自动化运维中，能够通过编程方式列出和审查 AWS 资源是一项必不可少的技能。Amazon S3 通常是我们在 AWS 云平台上构建应用程序的核心，因为它几乎可以存储任何类型的数据。但是，当我们在处理包含成百上千个存储桶的大型账户时，单纯依靠控制台点击不仅效率低下，还容易出错。

在这篇文章中，我们将深入探讨如何利用 Python 强大的 AWS SDK —— boto3，来 programmatically（以编程方式）列出所有 S3 存储桶。我们将不仅局限于基础的 API 调用，还会带你了解如何结合 AWS Lambda 实现无服务器自动化，以及在实际生产环境中处理数据、优化性能的最佳实践。无论你是正在构建自动化脚本的开发者，还是寻求提高运维效率的工程师，这篇文章都将为你提供实用的指导。

核心组件概览

在动手写代码之前，让我们先快速回顾一下我们将要交互的两个核心 AWS 服务：Amazon S3 和 AWS Lambda。

#### 什么是 Amazon S3？

简单来说，Amazon S3 (Simple Storage Service) 是 AWS 提供的对象存储服务。你可以把它想象成一个拥有无限容量且高度耐贵的“硬盘在云端”。

用途广泛：从静态网站托管、大数据湖、备份归档，到存储移动端应用的用户生成内容（图片、视频），S3 几乎无所不能。
数据管理：它支持版本控制，这意味着你可以保留对象的多个版本，轻松恢复误删的数据。配合生命周期策略，你还可以自动将老旧数据移动到更廉价的存储层级（如 Glacier），从而显著优化成本。
持久性：AWS 设计了 S3 来提供 99.999999999%（11 个 9）的持久性。这使得它成为存储关键业务数据的基石。

#### 什么是 AWS Lambda？

AWS Lambda 是一项改变游戏规则的无服务器计算服务。它的核心理念是“运行代码而不需要管理服务器”。

事件驱动：Lambda 函数通常由事件触发，例如 HTTP 请求（通过 API Gateway）、S3 文件上传，或者在我们今天的例子中——定时触发。

自动伸缩：无论你的请求是每天 10 次还是每秒数千次，Lambda 都会自动分配计算资源。你不需要预配置或管理任何底层服务器。

成本效益：你只需为代码实际执行的计算时间（毫秒级）付费。如果没有请求，就不会产生费用。

在本文的后续部分，我们将结合这两个服务：使用 Lambda 运行我们的 Python 代码来列出 S3 存储桶，这正是自动化运维的典型场景。

前置准备

为了确保你能顺利跟随本文进行操作，请确保你的环境中已经配置好了以下要素。如果你是新手，建议先在 AWS 控制台中手动操作一次以熟悉流程。

AWS 账户：你需要一个拥有适当权限的 AWS 账户。
IAM 角色与权限：安全始终是第一位的。为了让我们的代码（无论是在本地运行还是在 Lambda 上运行）能够访问 S3，我们需要通过 IAM（身份和访问管理）授予权限。

* 建议创建一个具有 INLINECODE3b712ac9 策略的 IAM 角色或用户。虽然在测试时我们可以使用 INLINECODE3813f039，但在生产环境中，遵循最小权限原则（Least Privilege）至关重要。

Python 环境：你需要安装 Python，并且通过 pip 安装了 INLINECODE4d9fcc0c 库（INLINECODEdea40360）。
基础资源：虽然我们的代码可以处理空列表的情况，但为了看到实际效果，建议你的 AWS 账户中已经创建了至少一个 S3 存储桶。

使用 Boto3 列出 S3 存储桶的核心步骤

现在，让我们进入正题。我们将分步骤讲解如何编写代码、配置 Lambda 并执行任务。

#### 步骤 1：构建 IAM 角色

首先，我们需要为 Lambda 函数创建一个身份。这个身份决定了 Lambda 能做什么。

登录 AWS 控制台，进入 IAM Dashboard。
选择 Roles，然后点击 Create role。
选择 AWS Service 作为可信实体，并在用例列表中选择 Lambda。
在搜索栏中查找并附加 INLINECODE1b55c558 策略（注意：在正式环境中，建议仅附加 INLINECODE833a6ff8 等只读权限，这里为了演示方便使用完全访问）。
给角色起一个名字（例如 LambdaS3ListRole），然后创建。

#### 步骤 2：创建 Lambda 函数

接下来，我们创建一个无服务器容器来运行我们的 Python 代码。

转到 AWS Lambda 控制台。
点击 Create function。
选择 Author from scratch。
函数名称可以设为 ListS3Buckets。
运行时环境选择 Python 3.x（例如 Python 3.9 或更高版本）。
在 Permissions（权限）部分，选择 Use an existing role，并从下拉菜单中选中我们在步骤 1 中创建的 LambdaS3ListRole。
点击 Create function。

#### 步骤 3：编写并部署 Python 代码

在 Lambda 函数的代码编辑器中，你将看到默认的 lambda_handler 模板。让我们替换它，加入我们的逻辑。这里不仅是为了列出存储桶，我们要展示如何优雅地处理返回的数据结构。

请将以下代码粘贴到编辑器中，我为你添加了详细的注释来解释每一行的作用：

import json
import boto3
from datetime import datetime

# 初始化 S3 客户端
# boto3.client 会创建一个低级别的客户端接口，这与 boto3.resource (高级别接口) 有所不同
# 对于 ‘list_buckets‘ 这种 API 调用，client 是最直接的选择
client = boto3.client(‘s3‘)

def lambda_handler(event, context):
    # 调用 list_buckets() API
    # 这个调用会返回一个字典，包含 ‘Buckets‘ 列表和响应元数据
    response = client.list_buckets()
    
    # 从响应中提取 ‘Buckets‘ 列表
    # 每个 bucket 包含 Name 和 CreationDate
    s3_buckets_list = response.get(‘Buckets‘, [])
    
    # 检查是否有存储桶存在
    length = len(s3_buckets_list)
    
    if length != 0:
        print("--- S3 Bucket Inventory ---")
        # 遍历列表并打印详细信息
        for bucket in s3_buckets_list:
            # 提取名称和创建日期
            name = bucket[‘Name‘]
            creation_date = bucket[‘CreationDate‘]
            
            # 打印格式化的输出，方便阅读
            print(f"Bucket Name: {name} | Created at: {creation_date}")
        
        # 返回一个 JSON 格式的响应给调用者（例如 API Gateway 或测试事件）
        return {
            ‘statusCode‘: 200,
            ‘body‘: json.dumps({
                ‘message‘: f‘Found {length} buckets.‘,
                ‘buckets‘: [b[‘Name‘] for b in s3_buckets_list]
            }, default=str)
        }
    else:
        # 处理空列表的情况
        print("There are no S3 buckets in this account.")
        return {
            ‘statusCode‘: 404,
            ‘body‘: json.dumps(‘No S3 buckets found.‘)
        }

#### 步骤 4：配置测试事件

在 Lambda 控制台中，点击 Test（测试）选项卡。

点击 Create event。
给事件起个名字，例如 TestListEvent。
模板保持默认即可（因为我们没有处理特定的输入参数，所以使用空 JSON {} 也没问题）。
点击 Save。

#### 步骤 5：执行与验证

现在，点击蓝色的 Test 按钮来运行代码。

场景 A：账户中没有存储桶

如果你的 AWS 账户是全新的，你将在控制台日志中看到输出：

There are no S3 buckets .

并且函数将返回 404 状态码。

场景 B：账户中存在存储桶

如果你有现有的存储桶（例如 INLINECODE72239ede, INLINECODE0df5d6d2），你将在 Log output 中看到它们的名称和确切的创建时间戳。

!Listed Buckets Example

输出示例：

    Bucket Name: my-app-logs | Created at: 2023-10-15 08:30:00
    Bucket Name: public-assets | Created at: 2024-01-20 14:15:22

深入解析与实战进阶

仅仅列出名称是不够的。作为专业的开发者，我们需要考虑如何处理这些数据，以及在复杂场景下如何优化代码。让我们探讨几个重要的进阶话题。

#### 1. 处理分页

如果你在一个拥有数千个存储桶的大型 AWS 组织中使用上述代码，INLINECODE96000b10 接口目前通常在单次调用中返回所有结果。但在 AWS 的其他 API（如 INLINECODEf0f7cf84）中，分页是必须面对的挑战。虽然 list_buckets 很少触发分页，但为了编写健壮的代码，我们需要意识到 Boto3 提供了 Paginator（分页器） 来自动处理多次调用的逻辑。

这是一个使用 Paginator 列出存储桶的更健壮写法（虽然对于 list_buckets 来说是杀鸡用牛刀，但对于理解 Boto3 机制至关重要）

import boto3

def list_buckets_with_paginator():
    client = boto3.client(‘s3‘)
    # 创建一个分页器
    paginator = client.get_paginator(‘list_buckets‘)
    
    # 使用 page_iterator 自动处理潜在的多次 API 调用
    for page in paginator.paginate():
        for bucket in page[‘Buckets‘]:
            print(f"Bucket: {bucket[‘Name‘]}")

#### 2. 本地运行代码

你不必非要在 AWS Lambda 中运行这段代码。如果你只是在本地机器上进行一次性的检查，你可以配置 AWS CLI 凭证（aws configure），然后直接运行以下 Python 脚本：

import boto3

# 在本地运行时，boto3 会自动查找 ~/.aws/credentials 中的凭证
s3 = boto3.resource(‘s3‘)

# 使用 resource 高级接口，代码更加 Pythonic
for bucket in s3.buckets.all():
    print(bucket.name)

注意：这种方法适合本地调试，但在服务器或 CI/CD 流水线中，使用 IAM 角色是更安全的做法。

#### 3. 常见错误与解决方案

在使用 Boto3 列出资源时，初学者常会遇到以下几个问题：

AccessDenied 异常：

* 原因：运行代码的 IAM 角色/用户没有 s3:ListAllMyBuckets 权限。

* 解决：检查 IAM 策略，确保至少附加了 AmazonS3ReadOnlyAccess。

EndpointConnectionError：

* 原因：通常发生在使用 boto3.client 时未指定区域，或者网络连接问题。

* 解决：创建客户端时显式指定区域，例如 boto3.client(‘s3‘, region_name=‘us-east-1‘)。

NoCredentialsError：

* 原因：找不到凭证（通常在本地运行时发生）。

* 解决：确保已运行 INLINECODE7fe8bf5c 或在代码中正确设置了环境变量 INLINECODE7374b033 和 AWS_SECRET_ACCESS_KEY。

#### 4. 实际应用场景：自动化合规检查

让我们看一个更贴近实战的例子。假设你需要生成一份月度报告，列出所有未开启版本控制的存储桶，以便进行安全合规检查。

import boto3

def check_bucket_versioning():
    client = boto3.client(‘s3‘)
    
    # 获取所有存储桶
    response = client.list_buckets()
    buckets = response[‘Buckets‘]
    
    print("--- Compliance Report: Buckets without Versioning ---")
    
    for bucket in buckets:
        bucket_name = bucket[‘Name‘]
        
        # 需要为每个存储桶单独调用 get_bucket_versioning
        # *注意：这是一个昂贵操作，如果有数千个存储桶，这会消耗大量时间和 API 配额*
        versioning = client.get_bucket_versioning(Bucket=bucket_name)
        
        # 如果 ‘Status‘ 字段不存在或不是 ‘Enabled‘，则视为未开启
        if versioning.get(‘Status‘) != ‘Enabled‘:
            print(f"WARNING: {bucket_name} does NOT have versioning enabled.")

性能优化提示：上面的代码演示了逻辑，但如果面对海量存储桶，顺序执行 INLINECODEb082f02d 会非常慢。在实际生产中，我们可以使用 Python 的 INLINECODEcd0685c3 线程池来并发查询。

总结

在这篇文章中，我们从零开始，学习了如何利用 Python 的 INLINECODE83006ccd 库与 AWS S3 进行交互。我们不仅掌握了基础的 INLINECODEcb6104bc 用法，还深入了解了如何在 AWS Lambda 这个无服务器环境中部署和运行代码。

我们首先创建了必要的 IAM 权限角色，确保了操作的安全性；接着编写了能够优雅处理空列表和格式化输出的 Python 代码；最后，我们探索了包括分页、本地运行以及合规性检查在内的进阶话题。

下一步建议

现在你已经迈出了第一步，我鼓励你尝试以下挑战来巩固所学：

修改 Lambda 代码，使其不仅仅是列出名称，而是计算每个存储桶中的对象总数（注意：这可能会消耗更多时间和 API 请求）。
尝试将 Lambda 的输出发送到 Amazon SNS 主题，以便通过邮件接收这份存储桶列表报告。
探索 INLINECODE2cb1dd2b 和 INLINECODEf290c50b 的区别，看看在什么场景下使用哪个更合适。

希望这篇指南能帮助你更好地理解 AWS 自动化运维。当你再次面对需要管理大量云端资源的任务时，记得使用 Python 和 Boto3，它们是你手中最锋利的武器。祝你编码愉快！

投稿给我们	如何建站？
vps是什么？	如何安装宝塔？
如何通过博客赚钱？	便宜wordpress托管方案
免费wordpress主题	这些都是免费方案

豆丁博客

如何使用 Boto3 高效列出 S3 存储桶：从入门到最佳实践

核心组件概览

前置准备

使用 Boto3 列出 S3 存储桶的核心步骤

深入解析与实战进阶

总结

相关文章美国1G带宽/1T流量高速vps $17.99/年