使用 Python 和 Selenium 轻松抓取网页表格数据：从入门到精通

2026-02-11 22:11:54 0条评论 39次阅读 0人点赞

在日常的数据采集工作中，我们经常会遇到这样的需求：从一个结构复杂的网页中提取出整齐划一的表格数据。虽然通过 HTTP 请求直接获取源码并解析（如使用 BeautifulSoup）是常见的做法，但面对现代网页中大量动态渲染的内容，这种方法往往无能为力。这时，我们就需要请出自动化测试领域的“瑞士军刀”——Selenium。

Selenium 不仅仅是一个自动化测试工具，它更像是一个能够模拟真实用户操作浏览器的机器人。通过它，我们不仅能点击按钮、填写表单，还能精准地捕获那些需要 JavaScript 才能显示的数据。在本文中，我们将一起深入探讨如何利用 Python 和 Selenium 从网页中高效地抓取表格数据。我们将从最基础的 HTML 结构讲起，逐步深入到动态行数的处理、多级表头的应对以及代码的健壮性优化。

为什么选择 Selenium 处理表格？

你可能会有疑问：“为什么我不能直接用 Requests 或 Pandas 的 INLINECODEdf860e97 功能？”这是一个很好的问题。INLINECODEebaa627d 虽然便捷，但它主要依赖于静态的 HTML 标签。如果表格数据是通过 AJAX 异步加载的，或者你需要先登录、翻页才能看到表格，那么 read_html 就束手无策了。Selenium 的强大之处在于它能执行 JavaScript 并等待页面加载完成，确保我们抓取的是用户最终看到的完整数据。

准备工作：环境搭建

在开始编写代码之前，我们需要确保环境已经配置妥当。首先，你需要安装 Selenium 库以及浏览器驱动（本教程以 Chrome 为例）。

pip install selenium

同时，请确保你的 ChromeDriver 版本与 Chrome 浏览器版本一致，并将其放置在系统路径中，或者在代码中显式指定其路径。为了方便演示，我们将在代码中显式指定路径（在实际项目中，建议配置环境变量）。

核心策略：定位与遍历

抓取表格的核心逻辑可以概括为“定位父级，遍历子级”。通常，HTML 表格由 INLINECODEe58bfff4 标签包裹，内部包含 INLINECODE0763b766（表头）和 INLINECODE1674ec61（表体）。每一行是一个 INLINECODE95578aca，行内的单元格是 INLINECODEe7631513 或 INLINECODE844dd44c。

#### 步骤 1：初始化浏览器驱动

首先，我们需要启动一个浏览器实例。这就像打开了一个真实的浏览器窗口，只不过它受我们的代码控制。

# 导入必要的库
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.chrome.service import Service
import time

# 指定 ChromeDriver 的路径 (请替换为你本地的实际路径)
# 注意：在最新的 Selenium 4.x 中，推荐使用 Service 对象
service = Service(executable_path=r"C:\selenium\chromedriver_win32\chromedriver.exe")
driver = webdriver.Chrome(service=service)

#### 步骤 2：获取目标网页

接下来，让浏览器导航到目标页面。为了演示，我们可以先创建一个本地的 HTML 文件进行测试，或者直接访问一个公开的 URL。

# 打开目标网页
driver.get("https://example.com/your-target-page")

# 留出一些时间让页面加载，尤其是对于动态网页
time.sleep(3)

专家提示：在实际生产代码中，尽量避免使用 time.sleep() 硬性等待。更好的做法是使用 Selenium 提供的“显式等待”，直到特定的表格元素出现为止。这样可以大幅提升脚本的运行速度和稳定性。

#### 步骤 3：计算行数与列数

在开始抓取之前，了解表格的维度是很有帮助的。这不仅能帮助我们构建循环，还能用来验证数据抓取的完整性。

获取行数：

我们通常会计算 INLINECODE9ff551a2 下的 INLINECODE66219a7e 元素数量。注意，有时候页面代码可能没有显式写出

标签，但浏览器会自动解析，所以 XPath 写法要灵活。

# 通过 XPath 获取所有行
# 这里的 XPath 路径需要根据实际网页结构进行调整
# 我们先获取所有行，用于计算行数
rows = driver.find_elements(By.XPATH, "//table/tbody/tr")
print(f"检测到表格共有 {len(rows)} 行数据（不含表头）")

# 如果表头也在 tr 标签中，可能需要调整 XPath 以包含表头
# total_rows = len(driver.find_elements(By.XPATH, "//table/tr"))

获取列数：

列数通常基于第一行数据来推断，因为大多数表格的列是对齐的。

# 获取第一行的所有 td 元素
first_row_cols = driver.find_elements(By.XPATH, "//table/tbody/tr[1]/td")
col_count = len(first_row_cols)
print(f"检测到表格共有 {col_count} 列")

实战演练：编写抓取逻辑

现在，让我们通过一个具体的例子来看看如何把数据从表格中“拉”出来。假设我们有一个包含学生成绩的表格，我们希望提取每一行的内容并保存为列表。

#### 基础循环抓取法

这是最直观的方法：遍历行，再遍历每一行中的列。

data = []

# 遍历每一行 (从第1行开始，若是 Python 列表索引则是 0)
for i in range(1, len(rows) + 1):
    # 初始化当前行的临时列表
    row_data = []
    
    # 遍历当前行的每一列
    for j in range(1, col_count + 1):
        # 动态构建 XPath
        # 注意：XPath 的索引是从 1 开始的
        xpath_cell = f"//table/tbody/tr[{i}]/td[{j}]"
        
        try:
            # 定位单元格并获取文本
            cell_text = driver.find_element(By.XPATH, xpath_cell).text
            row_data.append(cell_text)
        except Exception as e:
            print(f"在第 {i} 行，第 {j} 列发生错误: {e}")
            row_data.append("N/A") # 容错处理
            
    data.append(row_data)
    print(f"已抓取第 {i} 行: {row_data}")

# 打印最终结果
print("
抓取完成，结果如下：")
for row in data:
    print(row)

#### 进阶：处理动态结构与分页

现实中的网页往往比上面的例子复杂得多。我们可能会遇到以下挑战：

表格带有复杂的表头（）：我们需要单独提取表头信息作为 CSV 的 Header。
表格带有分页：数据分布在第1页、第2页……我们需要自动点击“下一页”并抓取，直到没有下一页为止。
表格嵌套：某些单元格内部可能还包含其他标签或图片。

示例：包含表头提取和异常处理的完整代码

让我们看一个更健壮的代码版本。它不仅提取数据，还会处理表头，并演示如何处理可能出现的 NoSuchElementException。

from selenium.common.exceptions import NoSuchElementException

def scrape_table_with_headers(driver):
    final_data = []
    
    # 1. 提取表头
    try:
        headers = driver.find_elements(By.XPATH, "//table/thead/tr/th")
        header_texts = [h.text for h in headers]
        print(f"表头: {header_texts}")
        final_data.append(header_texts) # 将表头作为第一行数据
    except NoSuchElementException:
        print("未找到表头元素，尝试直接抓取数据...")

    # 2. 提取数据体
    # 这里我们直接定位 tbody 下的所有行，而不是通过索引计算
    try:
        tbody_rows = driver.find_elements(By.XPATH, "//table/tbody/tr")
        
        for row in tbody_rows:
            row_cells = row.find_elements(By.TAG_NAME, "td")
            # 使用列表推导式快速获取当前行所有单元格文本
            row_text_data = [cell.text for cell in row_cells]
            
            if row_text_data: # 确保不是空行
                final_data.append(row_text_data)
                
    except NoSuchElementException:
        print("未找到表格体内容")
        return []
        
    return final_data

# 执行抓取函数
scraped_data = scrape_table_with_headers(driver)

# 此时 scraped_data 就是一个二维列表，可以直接传入 Pandas DataFrame 或写入 CSV

常见问题与解决方案

在使用 Selenium 抓取表格时，你可能会遇到一些常见的“坑”。以下是我们的经验总结：

#### 1. 空白值或乱码问题

现象：.text 属性获取到的内容为空，或者包含大量换行符。
原因：有些数据可能没有直接显示在标签内，而是作为 INLINECODE8d2112eb 的 INLINECODEa020e2e3 属性存在，或者是隐藏在样式中。
解决：

检查元素是否有 INLINECODE57abd19d 属性，使用 INLINECODE3123a4de。
检查 CSS 样式是否隐藏了文字（如 display: none），Selenium 依然可以抓取隐藏元素的文本，但某些特殊编码可能需要处理。

#### 2. XPath 索引越界

现象：脚本运行到一半报错，提示无法找到 tr[10]。
原因：网页分页加载，或者表格行数是动态变化的。
解决：

使用 INLINECODE033a7ece (复数) 获取列表，通过 INLINECODE02ac7009 判断，而不是硬编码循环次数。
使用 try-except 包裹单行数据的抓取逻辑，确保某一行出错不会中断整个程序。

#### 3. 弃用的方法警告

现象：运行时控制台提示 find_element_by_* 方法已弃用。
原因：Selenium 4 更新了 API 调用方式。
解决：

使用新的 INLINECODEbf0fcfc2 语法，代替旧的 INLINECODEb3154de3。这能让你的代码在未来几年内都保持兼容。

总结与最佳实践

通过本文的探讨，我们学习了如何使用 Python 和 Selenium 从网页中抓取表格数据。我们不仅看到了基础的 for 循环遍历法，还了解了如何处理表头、动态行数以及常见的异常情况。

关键要点总结：

XPath 是利器：熟练掌握 XPath 语法（尤其是 // 轴和索引定位）是抓取动态内容的关键。
列表化思维：优先使用 find_elements 获取列表，再进行 Python 层面的循环，这样比在 Selenium 层面循环更高效且不易出错。
健壮性第一：永远使用显式等待和异常处理来应对网络延迟或结构变化。
分离关注点：将抓取逻辑与数据处理逻辑分开，先获取纯文本数据，再使用 Pandas 或 CSV 模块进行存储。

你的下一步行动：

不要只停留在理论上。建议你找一个包含大量数据的电商网站（例如产品列表页）或金融网站，尝试编写一个脚本，不仅抓取第一页，还要实现自动点击“下一页”并将所有数据保存到一个 CSV 文件中。你会发现，掌握这项技能后，互联网上的海量数据将任你取用。

希望这篇指南能帮助你解决自动化数据采集的难题！如果你在实践过程中遇到特殊的表格结构，欢迎继续探讨更复杂的定位技巧。

投稿给我们	如何建站？
vps是什么？	如何安装宝塔？
如何通过博客赚钱？	便宜wordpress托管方案
免费wordpress主题	这些都是免费方案

豆丁博客