如何从网站提取段落并保存为文本文件：2026年Python爬虫进阶指南

2026-02-06 04:06:10 0条评论 4次阅读 0人点赞

在日常的开发工作中，你是否经常需要从特定的网页上抓取文章内容，并将其整理保存到本地？也许你想建立自己的知识库，或者需要对某些网页内容进行离线分析。这就涉及到了我们常说的“网页爬取”技术。在 2026 年的今天，随着 LLM（大语言模型）的普及，拥有高质量、结构化的本地文本数据集变得前所未有的重要。在这篇文章中，我们将深入探讨如何使用 Python 的强大功能，从一个 URL 中提取特定的段落内容，并将其安全地保存为文本文件。我们不仅会分享基础代码，更会带入我们团队在实际企业级开发中的最新经验和前沿技术趋势。

前置准备与核心库介绍

在开始编写代码之前，我们需要先准备好两把“利剑”：INLINECODE361f1dd6 和 INLINECODEf9f629e1。这两个库是 Python 生态中进行网页抓取的基础组件，理解它们的用法至关重要。但在 2026 年的今天，作为经验丰富的开发者，我们通常会采取更现代化的工作流。

#### 1. Beautiful Soup (bs4)

Beautiful Soup 是一个可以从 HTML 或 XML 文件中提取数据的 Python 库。它允许你通过简单的标签名、类名或 ID 来定位网页元素。正如其名，它能把杂乱无章的 HTML 代码变成一棵易于遍历的“树”，让你能够优雅地提取出你需要的内容。

安装方法：

pip install bs4

#### 2. Urllib

INLINECODE5e3a470d 是 Python 的标准库之一（无需额外安装），它包含了多个用于处理 URL 的模块。虽然 INLINECODE9e2c6f01 库在社区中更流行，但在零依赖（Zero-Dependency）场景下，或者当你追求极致的轻量化时，urllib 依然是可靠的原生选择，非常符合现代 Serverless 架构中“减少容器镜像体积”的最佳实践。

现代开发范式：2026 年的视角

在我们最近的一个企业级项目中，我们意识到仅仅“会写代码”是不够的。现在的开发环境已经发生了巨大的变化。我们采用了 Vibe Coding（氛围编程） 的理念，结合 AI 辅助工作流，让我们在编写爬虫脚本时效率倍增。

想象一下，你不再需要去记忆复杂的 Beautiful Soup 查找语法，而是通过自然语言描述你的意图，由 IDE 中的 AI 代理（如 Cursor 或 Copilot）实时生成代码片段。例如，我们可以直接输入：“提取所有 class 为 ‘article-content‘ 的段落，并去除所有广告标签”，AI 就能为我们生成精准的正则表达式和筛选逻辑。我们在这篇文章中展示的代码，实际上就是经过 AI 优化和重构后的结果，旨在展示如何编写“AI 友好”且人类可读的代码。

基础实现：从一个简单的页面开始

让我们先从最核心的需求开始：提取段落。为了让你清楚地理解每一个步骤，我们将构建一个完整的示例。这个示例不仅包含抓取逻辑，还包含文件操作，演示如何将数据从网络流转到本地磁盘。

#### 核心实现思路

在编写代码之前，理清逻辑能让我们少走弯路。我们的实现策略如下：

建立网络连接：传入目标 URL，向服务器发起请求，获取 HTML 文档的原始内容。
本地持久化（可选）：为了方便调试或离线分析，我们可以先将 HTML 代码保存到本地文件中。这一步在实际工程中常用于缓存。
解析结构：利用 Beautiful Soup 解析获取到的 HTML，构建出 DOM 树。
遍历与提取：在 DOM 树中查找所有的
标签（即段落标签），并获取其中的纯文本。
数据存储：将提取到的文本清洗后，写入一个新的文本文件。

#### 完整代码示例

下面的代码展示了这一全过程。为了方便你理解，我添加了详细的中文注释。

import urllib.request
from bs4 import BeautifulSoup

# 1. 定义我们的目标 URL 和本地保存路径
# 请根据你的实际情况修改 URL 和路径
target_url = "https://www.example.com/article-to-scrape"
html_save_path = "downloaded_page.html"
text_save_path = "extracted_content.txt"

try:
    # 2. 下载网页内容并保存为本地 HTML 文件
    # urlretrieve 方法非常方便，它会自动处理连接并将文件写入磁盘
    print(f"正在从 {target_url} 获取数据...")
    urllib.request.urlretrieve(target_url, html_save_path)
    print("HTML 源码已保存。")

    # 3. 读取刚才保存的 HTML 文件
    # 使用 ‘r‘ 模式（读取模式）打开文件，并指定编码格式为 utf-8 防止中文乱码
    with open(html_save_path, "r", encoding="utf-8") as file:
        contents = file.read()

    # 4. 创建 Beautiful Soup 解析对象
    # ‘html.parser‘ 是 Python 内置的解析器，不需要额外安装 lxml
    soup = BeautifulSoup(contents, ‘html.parser‘)

    # 5. 打开（或创建）我们要写入文本的文件
    # 使用 ‘w‘ 模式（写入模式），如果文件存在则会覆盖
    with open(text_save_path, "w", encoding="utf-8") as f:
        
        # 6. 遍历网页中所有的  标签
        paragraphs = soup.find_all("p")
        
        for index, data in enumerate(paragraphs):
            # 获取标签内的纯文本，并去除首尾空白
            text_content = data.get_text().strip()
            
            # 只有当内容不为空时才写入，避免产生大量空行
            if text_content:
                print(f"正在写入第 {index + 1} 段内容...")
                # 写入文本并在末尾添加换行符
                f.write(text_content + "
")

    print(f"所有内容已成功提取并保存至 {text_save_path}")

except Exception as e:
    print(f"发生了一个错误: {e}")

进阶技巧：企业级数据清洗与性能优化

上面的基础代码虽然能跑通，但在实际生产环境中，我们往往需要处理更复杂的情况。随着 2026 年网页技术的日益复杂（如大量的 Shadow DOM 和动态渲染），简单的 find_all 可能不再够用。让我们深入探讨几个关键的优化点，让你的爬虫更加健壮。

#### 1. 内存优化：直接流式处理

在基础示例中，我们先下载 HTML 到磁盘，再读入内存解析。这在处理大文件时会造成性能瓶颈。其实，urllib 可以直接返回文件类对象，我们可以直接将其传给 Beautiful Soup，省去中间的磁盘 I/O 步骤。这在 边缘计算 或是资源受限的容器化环境中尤为重要。

import urllib.request
from bs4 import BeautifulSoup

def fetch_and_parse_directly(url, output_file):
    try:
        # 直接打开 URL 链接，不保存中间 HTML 文件
        with urllib.request.urlopen(url) as response:
            # 直接读取网页内容
            html_content = response.read()
            
        # 解析内容
        soup = BeautifulSoup(html_content, ‘html.parser‘)
        
        with open(output_file, "w", encoding="utf-8") as f:
            for p in soup.find_all("p"):
                text = p.get_text().strip()
                if text:
                    f.write(text + "
")
                    
    except urllib.error.URLError as e:
        print(f"网络请求失败: {e}")

#### 2. 智能清洗：处理嵌套标签与 AI 辅助正则

网页结构往往非常复杂。有些 INLINECODEc931c5c9 标签内部可能包含链接 INLINECODE79954c5a、加粗 INLINECODE32cda6f3 或其他标签。直接使用 INLINECODEb81f633b 有时可能会遇到格式混乱的问题。此外，简单的 strip() 可能不足以处理所有的空白字符。我们可以利用 LLM 驱动的调试 思维，生成更强大的正则表达式来进行清洗。

import re

def clean_text(text):
    # 使用正则表达式将多个连续的空白字符（包括空格、换行、制表符）替换为单个空格
    # \s+ 匹配任何空白字符
    return re.sub(r‘\s+‘, ‘ ‘, text).strip()

# 在循环中使用清洗函数
# ... (前面的代码)
for p in soup.find_all("p"):
    raw_text = p.get_text(separator=‘ ‘, strip=False) # 即使标签换行也保留为空格
    clean_content = clean_text(raw_text)
    if clean_content:
        f.write(clean_content + "
")

深度解析：2026年生产环境中的反爬虫对抗

在我们最近的实战中，发现仅仅添加 User-Agent 已经不足以应对现代的 Web 应用防火墙（WAF）。我们需要从“请求伪装”进化到“行为模拟”。

#### 1. 403 Forbidden（禁止访问）与反爬虫对抗

现象： 程序运行报错，服务器返回 HTTP 403 错误。
原因： 许多网站有反爬虫机制，它们会检查请求头中的 User-Agent。如果不设置这个字段，Python 的默认请求会被识别为“爬虫程序”而非“浏览器”，从而被拒绝。更先进的网站会检查 TLS 指纹。
解决方法： 伪装成浏览器。我们需要在请求中添加自定义的 Header。

import urllib.request

url = "https://www.target-website.com"

# 创建一个 Request 对象，而不是直接使用 urlretrieve
req = urllib.request.Request(url, headers={
    ‘User-Agent‘: ‘Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36‘,
    ‘Accept‘: ‘text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8‘,
    ‘Accept-Language‘: ‘zh-CN,zh;q=0.9,en;q=0.8‘,
    # 模拟真实的浏览器连接，避免 TLS 指纹识别
    ‘Connection‘: ‘keep-alive‘
})

# 使用自定义的 Request 发起请求
with urllib.request.urlopen(req) as response:
    html = response.read()
    # 后续解析步骤...

#### 2. 中文乱码问题

现象： 保存的文本文件中出现乱码（如 xe8 这样的字符或乱码方块）。
原因： 网页可能使用了 GBK 或 GB2312 编码，而你强制使用了 UTF-8 写入；或者反过来。
解决方法： 尽量在读取时显式指定编码，或者利用 BeautifulSoup 的自动检测功能。

# 方法一：在 open 时忽略错误（可能导致少量字符缺失，但不会报错）
# file = open(..., encoding="utf-8", errors="ignore")

# 方法二：让 Beautiful Soup 根据元数据猜测编码
soup = BeautifulSoup(content, from_encoding=response.headers.get_content_charset() or "utf-8")

云原生架构：可扩展的爬虫设计

在 2026 年，我们不再写一次性脚本。我们需要考虑代码的可维护性、可扩展性以及云原生部署的可能性。让我们思考一下这个场景：如果我们需要抓取成千上万个页面，该如何设计？

#### 异步并发与容灾机制

随着 Python 异步编程的成熟，使用 INLINECODE73ed1af4 配合 INLINECODE6b80a093 进行并发抓取已经成为标配。这能极大地提高 I/O 密集型任务的效率。同时，我们需要引入重试机制和熔断器模式，以应对网络波动。

#### 安全左移

在编写爬虫时，我们必须考虑数据隐私。确保提取的文本中不包含敏感的 PII（个人身份信息）是现代开发的红线。我们可以在提取流程中加入自动脱敏步骤，利用正则或轻量级本地模型过滤手机号、邮箱等信息。

多场景实战案例

为了让你更好地适应不同的需求，我们准备了两个额外的实战场景代码。

#### 场景一：保存文章标题与段落（结构化数据）

有时候我们不仅需要段落，还需要标题来作为上下文。这对于后续训练 RAG（检索增强生成）系统非常有帮助。

import urllib.request
from bs4 import BeautifulSoup

def extract_article_structured(url, file_path):
    req = urllib.request.Request(url, headers={‘User-Agent‘: ‘Mozilla/5.0‘})
    
    with urllib.request.urlopen(req) as response:
        html = response.read()
    
    soup = BeautifulSoup(html, "html.parser")
    
    with open(file_path, "w", encoding="utf-8") as f:
        # 先提取标题 , 
, 
        for header in soup.find_all(["h1", "h2", "h3"]):
            f.write(f"[HEADER] {header.get_text().strip()}
")
            
        # 再提取段落
        for p in soup.find_all("p"):
            text = p.get_text().strip()
            if text:
                f.write(f"{text}
")

# extract_article_structured("https://example.com", "structured_output.txt")

#### 场景二：追加模式与日志记录

如果你不想每次运行都覆盖旧文件，而是希望追加内容（例如进行增量监控），可以使用追加模式 "a"。这在构建长期运行的监控 Agent 时非常实用。

import datetime

def append_content_to_file(url, file_path):
    # 获取当前时间戳
    timestamp = datetime.datetime.now().strftime("%Y-%m-%d %H:%M:%S")
    
    # 这里省略了请求和解析的步骤...
    # ... (soup = ...)
    
    with open(file_path, "a", encoding="utf-8") as f:
        f.write(f"
--- 更新时间: {timestamp} ---
")
        
        for p in soup.find_all("p"):
            if p.get_text().strip():
                f.write(p.get_text().strip() + "
")

总结

通过这篇文章，我们完整地走过了从零开始编写网页爬虫的旅程。我们不仅掌握了如何使用 INLINECODEaea8fcb5 下载页面、利用 INLINECODEd90e3573 提取

标签，还深入了解了文件操作、异常处理以及反爬虫策略。结合 2026 年的 AI 辅助开发和云原生思维，我们可以看到，即使是基础的爬虫脚本，也蕴含着工程化的智慧。

关键要点回顾：

模块选择：INLINECODEdaf4fd07 负责传输，INLINECODE8c0e3188 负责解析，两者配合默契。
数据清洗：永远不要信任原始数据，使用 .strip() 和正则表达式让你的文本更加干净。
优雅降级：使用 try-except 捕获网络错误和文件 IO 错误，确保程序不会因为意外崩溃。
尊重规则：在爬取网站时，请务必查看网站的 robots.txt 文件，遵守使用条款，设置合理的请求频率，做一个文明的开发者。

希望这篇文章能成为你数据采集之路上的有力参考。在 AI 时代，数据是新的石油，而掌握从 Web 中提取数据的能力，将是每位开发者手中的“钻头”。接下来，你可以尝试修改上述代码，去提取图片链接、或者是下载 PDF 文件。如果你在尝试过程中遇到了有趣的问题，欢迎随时回来看我们的代码示例寻找灵感。祝你编程愉快！

投稿给我们	如何建站？
vps是什么？	如何安装宝塔？
如何通过博客赚钱？	便宜wordpress托管方案
免费wordpress主题	这些都是免费方案

豆丁博客