深入掌握 NLP：使用 NLTK 添加自定义停用词并高效移除

2026-02-15 18:51:18 0条评论 2次阅读 0人点赞

在自然语言处理（NLP）的浩瀚海洋中，文本预处理往往是最关键但也最容易被忽视的基石。你是否曾遇到过这样的情况：你精心设计的模型在特定领域的文本上表现不佳，或者你的关键词提取算法总是抓不住重点？很多时候，问题不在于模型的复杂度，而在于我们是否有效地过滤了噪声。

停用词，如 "is"、"the"、"at" 等，虽然构成了句子的骨架，但往往掩盖了真正的语义核心。虽然像 NLTK 这样的强大库为我们提供了现成的多语言停用词列表，但在实际生产环境中，通用的列表往往是不够的。比如，在分析医疗文本时，"patient"（患者）可能在通用列表中不是停用词，但在你的特定语境下，它可能是高频且无义的；或者在处理社交媒体数据时，特定的表情符号或网络流行语需要被动态过滤。

在这篇文章中，我们将不仅仅是学习如何 "删除单词"，而是将深入探讨如何构建一个灵活、专业的文本清洗流程。我们将一起探索如何利用 NLTK 建立默认的过滤机制，更重要的是，如何根据业务需求添加自定义停用词，并编写可维护、可扩展的 Python 代码来处理这些任务。无论你是正在构建情感分析引擎，还是优化文档检索系统，掌握这一技能都将让你的数据预处理工作流更加健壮。

准备工作：搭建环境

工欲善其事，必先利其器。让我们首先确保我们的开发环境已经就绪。我们将使用 Python 的王牌 NLP 库—— NLTK (Natural Language Toolkit)。

如果你还没有安装 NLTK，打开你的终端或命令提示符，执行以下 pip 命令：

pip install nltk

安装完成后，我们需要导入必要的模块，并确保 NLTK 的核心数据包已经下载到本地。这一步对于初学者来说经常容易遗漏，所以请务必注意。

import nltk
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize

# 下载必要的 NLTK 数据
# punkt 用于分词，stopwords 包含停用词列表
try:
    nltk.data.find(‘tokenizers/punkt‘)
except LookupError:
    nltk.download(‘punkt‘)
    nltk.download(‘punkt_tab‘) # 针对较新 NLTK 版本的兼容性下载

try:
    nltk.data.find(‘corpora/stopwords‘)
except LookupError:
    nltk.download(‘stopwords‘)

在这段代码中，我们加入了一个简单的错误处理机制。这是一个良好的编程习惯：在尝试下载数据前先检查是否已存在，这样可以避免在重复运行脚本时浪费时间重复下载，或者在网络不稳定时抛出令人困惑的错误。

深入理解默认停用词

在添加自定义词汇之前，我们需要先了解我们手里的 "底牌" 是什么。NLTK 为多种语言提供了内置的停用词列表。让我们来看看英语的默认列表中包含什么。

# 获取英语停用词列表，并将其转换为集合以提高查找效率
default_stopwords = set(stopwords.words(‘english‘))

print(f"默认停用词数量: {len(default_stopwords)}")
print("示例词汇:", list(default_stopwords)[:10])

输出示例：

> 默认停用词数量: 179

> 示例词汇: [‘won‘, ‘isn‘, ‘your‘, ‘yours‘, ‘against‘, ‘because‘, ‘should‘, ‘she‘, ‘he‘, ‘from‘]

这里有一个关键的性能优化点：使用 INLINECODEc3b5c4d5（集合）而不是 INLINECODEd4dc913a（列表）。在 Python 中，检查一个元素是否在 INLINECODEf2f484ee 中的时间复杂度是 O(1)，而在 INLINECODE7d226e08 中是 O(n)。当我们处理包含数百万词汇的语料库时，这个微小的改变将带来显著的性能提升。

扩展军备：添加自定义停用词

默认列表固然好用，但现实世界的文本往往充满了 "脏数据"。假设我们正在处理一批来自特定论坛的评论数据，发现 "like"、"know" 以及特定的用户 ID 前缀 "user_1234" 频繁出现且毫无意义。这时，我们就需要扩展我们的停用词列表。

让我们看看如何优雅地做到这一点：

# 定义我们需要移除的自定义词汇
# 这些词可能是特定领域的噪声，或者是数据中的常见错误
custom_stopwords = {‘like‘, ‘know‘, ‘user_1234‘, ‘example‘, ‘customword‘}

# 使用 union 方法将自定义集合合并到默认集合中
# 这会生成一个新的包含所有词汇的集合，且自动去重
extended_stopwords = default_stopwords.union(custom_stopwords)

print(f"扩展后停用词数量: {len(extended_stopwords)}")

输出示例：

> 扩展后停用词数量: 184

通过使用 INLINECODEc4b50fa8 方法，我们确保了即使 INLINECODEd015a03e 中包含了已经存在于 default_stopwords 里的词，最终的列表也不会出现重复，保持了数据的整洁。

实战演练：从文本中移除停用词

理论结合实践才是王道。让我们定义一段包含噪声的样本文本，并使用我们刚刚构建的扩展停用词表来清洗它。

# 示例文本：包含了一些我们需要过滤的自定义词汇
sample_text = "This is an example text with a customword that needs to be removed. I know you like this user_1234."

# 1. 分词：将句子拆分为单词列表
tokens = word_tokenize(sample_text)
print("原始分词结果:", tokens)

# 2. 过滤：保留不在停用词表中的单词
# 注意：我们将单词转换为小写再比较，以确保 "The" 和 "the" 被视为同一个词
filtered_text = [word for word in tokens if word.lower() not in extended_stopwords]

# 3. 重构：将过滤后的单词列表重新组合成字符串
cleaned_text = ‘ ‘.join(filtered_text)

print("
清洗后的文本:", cleaned_text)

输出示例：

> 原始分词结果: [‘This‘, ‘is‘, ‘an‘, ‘example‘, ‘text‘, ‘with‘, ‘a‘, ‘customword‘, ‘that‘, ‘needs‘, ‘to‘, ‘be‘, ‘removed‘, ‘.‘, ‘I‘, ‘know‘, ‘you‘, ‘like‘, ‘this‘, ‘user_1234‘, ‘.‘]

> 清洗后的文本: text needs removed .

你看，原本冗长的句子，经过处理后只剩下核心语义。在这个例子中，"example"、"customword"、"know"、"like" 和 "user_1234" 都被成功移除了。这就是数据清洗的魅力所在。

进阶技巧：构建动态处理函数

在实际的项目开发中，硬编码停用词列表并不是最佳实践。我们可能需要根据不同的文本来源或用户输入，动态地调整过滤规则。让我们来编写一个更加专业的函数，它接受文本和可选的自定义停用词作为参数。

“pythonndef process_text_dynamic(text, custom_stopwords=None): """ 对文本进行分词并移除停用词，支持动态添加自定义停用词。


    参数:

        text (str): 输入的原始文本。

        custom_stopwords (set, optional): 需要额外移除的自定义词汇集合。默认为 None。
    返回:

        str: 清洗后的文本。

    """

    # 基础停用词

    base_stopwords = set(stopwords.words(‘english‘))
    # 动态合并停用词

    # 如果提供了 custom_stopwords，则进行合并；否则仅使用默认列表

    current_stopwords = base_stopwords.union(custom_stopwords) if custom_stopwords else base_stopwords
    # 分词处理

    tokens = word_tokenize(text)
    # 过滤逻辑：保留非停用词，并且进行小写归一化

    filtered_tokens = [word for word in tokens if word.lower() not in current_stopwords]
    # 返回清洗后的文本

    return ‘ ‘.join(filtered_tokens)
# 测试动态函数

test_scenario_1 = "Running is a great exercise."

test_scenario_2 = "Running is a great exercise, especially if you enjoy running outdoors."
# 场景1：仅使用默认停用词

print("场景1结果:", process_text_dynamic(test_scenario_1))
# 场景2：添加 "running" 到停用词列表

specific_words = {‘running‘}

print("场景2结果:", process_text_dynamic(test_scenario_2, custom_stopwords=specific_words))

CODEBLOCK_e7d40d43python

import string
def advanced_text_cleaning(text, remove_punctuation=True):

    """

    高级文本清洗：移除停用词并可选地移除标点符号。

    """

    # 获取英语停用词

    stop_words = set(stopwords.words(‘english‘))

# 获取所有标点符号集合 # string.punctuation 包含: !"#$%&‘()*+,-./:;?@[\]^_{|}~

punctuation_set = set(string.punctuation)

# 合并停用词和标点符号（如果需要移除标点）

filterset = stopwords

if remove_punctuation:

filterset = filterset.union(punctuation_set)

tokens = word_tokenize(text)

# 过滤逻辑：排除停用词和标点

# 同时确保过滤后的 token 不仅仅是空字符串或纯数字（可选策略）

cleaned_tokens = [

word for word in tokens

if word.lower() not in filter_set

]

return cleaned_tokens

textwithpunctuation = "Hello, world! This is an advanced example… isn‘t it?"

cleanedlist = advancedtextcleaning(textwith_punctuation)

print("深度清洗结果:", ‘ ‘.join(cleaned_list))


**输出示例：**
> 深度清洗结果: Hello world advanced example

这里我们引入了 Python 内置的 `string` 模块。通过将标点符号加入过滤集合，我们得到更加纯净的单词列表。这对于后续的词频统计或主题模型（如 LDA）非常有帮助。

### 性能优化与最佳实践
在处理大规模文本数据（如维基百科转储或社交媒体流）时，效率至关重要。以下是一些实战中的优化建议：

1.  **预编译停用词集合**：不要在循环内部重复调用 `set(stopwords.words(‘english‘))`。你应该在脚本启动时加载一次，并将其作为全局变量或类属性传递给处理函数。

2.  **使用列表推导式**：如我们所演示的，`[word for word in tokens if ...]` 通常比使用 `for` 循环配合 `append()` 更快，也更符合 Pythonic 风格。

3.  **考虑多线程/多进程**：如果是处理独立的文档列表，可以使用 `multiprocessing` 库将清洗任务分配到多个 CPU 核心上。

### 完整的实战示例代码
为了让你能够立即上手，下面汇总了一份包含所有上述技巧的完整代码。你可以直接将其保存为 `.py` 文件运行。

python

–– coding: utf-8 ––

import nltk

from nltk.corpus import stopwords

from nltk.tokenize import word_tokenize

import string

确保必要的 NLTK 数据已下载

def setup_nltk():

"""初始化 NLTK 数据下载"""

packages = [‘punkt‘, ‘stopwords‘, ‘punkt_tab‘]

for package in packages:

try:

nltk.data.find(f‘tokenizers/{package}‘ if ‘punkt‘ in package else f‘corpora/{package}‘)

except LookupError:

nltk.download(package)

setup_nltk()

def getfinalstopwords(custom_words=None):

"""

获取最终的停用词集合（默认 + 自定义 + 标点）

"""

# 基础停用词

base_stopwords = set(stopwords.words(‘english‘))

# 添加标点符号（通常需要移除）

finalstopwords = basestopwords.union(set(string.punctuation))

# 如果有自定义词，合并进来

if custom_words:

finalstopwords = finalstopwords.union(custom_words)

return final_stopwords

def cleantext(text, customstopwords=None):

"""

清洗文本的主函数

"""

# 1. 准备过滤集合

filters = getfinalstopwords(custom_stopwords)

# 2. 分词

tokens = word_tokenize(text)

# 3. 过滤

cleaned_tokens = [w for w in tokens if w.lower() not in filters]

# 4. 返回结果（列表形式或字符串形式）

return cleaned_tokens

— 主程序执行逻辑 —

if name == "main":

# 定义一些业务相关的自定义停用词

business_noise = {‘example‘, ‘customword‘, ‘update‘, ‘delete‘}

# 模拟一段复杂的输入文本

raw_text = """

Attention all users: This is an example update.

Please delete the customword immediately.

We know that efficiency is key; isn‘t that correct?

(End of message)

"""

print(f"原始文本: {raw_text}")

# 执行清洗

cleanresult = cleantext(rawtext, customstopwords=business_noise)

print(f"

清洗后结果 {‘ ‘.join(clean_result)}")

# 验证特定词汇是否被移除

# 期望结果中不应包含 ‘users‘ (非停用词), ‘customword‘ (自定义停用词), ‘.‘ (标点)

print("

验证保留词汇:")

print([word for word in clean_result if word not in [‘example‘, ‘customword‘]])

“`

总结

在这篇文章中，我们不仅学习了如何简单地调用 NLTK 的命令，更重要的是，我们像一名专业的工程师一样思考了文本清洗的整个流程。我们涵盖了从环境搭建、默认词库的理解，到自定义扩展、动态函数编写以及性能优化的方方面面。

掌握自定义停用词的添加与移除，是迈向高质量 NLP 应用的第一步。当你开始你的下一个项目时——无论是情感分析、文档摘要，还是智能问答系统——请记住，扎实的数据预处理往往比复杂的算法更能决定项目的成败。你可以尝试修改上面的代码，将其应用于你自己的数据集，观察不同停用词策略对最终结果的影响。祝你编码愉快！

投稿给我们	如何建站？
vps是什么？	如何安装宝塔？
如何通过博客赚钱？	便宜wordpress托管方案
免费wordpress主题	这些都是免费方案

豆丁博客

深入掌握 NLP：使用 NLTK 添加自定义停用词并高效移除

准备工作：搭建环境

深入理解默认停用词

扩展军备：添加自定义停用词

实战演练：从文本中移除停用词

进阶技巧：构建动态处理函数

–– coding: utf-8 ––

确保必要的 NLTK 数据已下载

— 主程序执行逻辑 —

总结

相关文章美国1G带宽/1T流量高速vps $17.99/年