深入理解 NLP 分词：从原理到代码实践

2026-02-14 05:15:19 0条评论 1次阅读 0人点赞

在构建现代自然语言处理（NLP）应用时，无论你是开发一个智能聊天机器人，还是进行复杂的文本情感分析，首先面对的挑战往往是如何让计算机“理解”人类语言。这正是我们今天要探讨的核心话题——分词。

作为 NLP 流水线中不可或缺的第一步，分词的质量直接影响着后续模型的性能。简单来说，分词就是将一段连贯的文本序列切分成一个个独立的、有意义的单位，我们将这些单位称为“Token”（词元）。根据任务需求的不同，这些 Token 可以是单词、子词，甚至是字符。在这篇文章中，我们将像剥洋葱一样，深入探讨 NLP 中分词的概念、重要性、不同的方法，并通过大量的代码实例来掌握它的实战技巧。

1 什么是分词？
2 为什么分词如此重要？
3 分词的三大类型
4 分词的方法：规则、统计与机器学习
5 常见问题与最佳实践
6 总结

什么是分词？

让我们从最基础的概念开始。你可以把分词想象成把一整句话拆解成乐高积木块的过程。在自然语言中，这些“积木块”就是 Token。对于计算机而言，它并不像人类那样直观地理解“上下文”或“语义”，它只能处理数字化的结构化数据。因此，将非结构化的文本字符串转换为结构化的 Token 列表，就是我们喂给机器学习模型之前的必要准备工作。

在这个过程中，Token 是针对当前任务最小的、有意义的文本单位。需要注意的是，分词通常是文本预处理管道的第一步，但也往往是决定性的一步。如果切分错误，比如把“not bad”切成了两个毫无关联的词，模型可能就无法捕捉到否定的语义，从而导致预测错误。

为什么分词如此重要？

你可能会问，为什么要这么强调分词？主要有以下几个关键原因：

简化文本分析： 机器无法直接处理长篇大论的字符串。通过将文本分解为更小的组成部分，我们将一个复杂的序列问题转化为了更容易处理的离散单位问题。

便于特征提取： 在机器学习中，模型需要输入特征。Token 就是这些特征的载体。通过统计 Token 的频率、位置和共现关系，我们可以构建用于文本分类、情感分析和命名实体识别的特征向量。没有 Token，就没有特征。

标准化输入： 分词有助于我们将杂乱的文本标准化。例如，将大写字母转为小写、去除无意义的标点符号等，这通常与分词过程同步进行，使算法处理起来更加得心应手。

分词的三大类型

在 NLP 实践中，我们通常根据粒度将分词分为三种主要类型。让我们逐一通过代码来了解它们。

1. 单词分词

这是最符合人类直觉的一种形式，即将文本拆分为单独的单词。对于英文等有空格分隔的语言，这看起来很简单，但处理标点符号和特殊字符时需要小心。

示例：

原文本: "Tokenization is crucial for NLP."

词元结果: ["Tokenization", "is", "crucial", "for", "NLP", "."]

让我们看看如何使用 Python 中著名的 NLTK 库来实现这一过程：

# 导入 NLTK 库的相关模块
import nltk
from nltk.tokenize import word_tokenize

# 首次使用时需要下载分词模型数据包
nltk.download(‘punkt‘)

text = "Tokenization is crucial for NLP."

# 使用 word_tokenize 进行单词级分词
# 这个函数足够智能，能够处理像 "isn‘t" 这样的缩写，或者将标点符号分开
word_tokens = word_tokenize(text)

print("单词分词结果:", word_tokens)

输出：

单词分词结果: [‘Tokenization‘, ‘is‘, ‘crucial‘, ‘for‘, ‘NLP‘, ‘.‘]

2. 子词分词

随着现代深度学习（如 BERT, GPT）的兴起，单纯的单词分词遇到了挑战。例如，“unhappiness”可能不在词表中，或者“love”和“loving”被模型视为完全无关的两个词。子词分词应运而生。它将单词分解为更小的、有意义的词根或词缀。

这种方法不仅能有效处理“词汇表之外的单词（OOV）”问题，还能显著减小模型所需的词汇表大小。常见的算法包括字节对编码（BPE）和 WordPiece。

示例 (BPE)：

原文本: "unhappiness"

子词结果: ["un", "hap", "pi", "ness"]

下面是一个使用 tokenizers 库训练简单 BPE 模型的实战例子：

# 从 tokenizers 库导入必要的组件
from tokenizers import Tokenizer
from tokenizers.models import BPE
from tokenizers.trainers import BpeTrainer
from tokenizers.pre_tokenizers import Whitespace

# 初始化一个 BPE 模型的分词器
tokenizer = Tokenizer(BPE(unk_token="[UNK]"))

# 设置预分词器：按空白字符切分（这是训练前的初步处理）
tokenizer.pre_tokenizer = Whitespace()

# 准备训练数据（这里只是演示，实际需要大量数据）
training_data = [
    "unhappiness", "tokenization", "machine learning", "natural language"
]

# 初始化训练器，并设置特殊 Token
trainer = BpeTrainer(special_tokens=["[UNK]", "[CLS]", "[SEP]", "[PAD]", "[MASK]"])

# 训练分词器
tokenizer.train_from_iterator(training_data, trainer)

# 对新文本进行编码
output = tokenizer.encode("unhappiness")
print("子词分词结果:", output.tokens)

3. 字符分词

这是最细粒度的分词方式。在这里，文本在字符级别进行拆分。

优点： 它产生的词汇表最小（只有 ASCII 字符或 Unicode 字符集），并且能够处理任何拼写错误或生僻词。
缺点： 它完全丢失了词级别的语义信息。例如，“t-h-e”和“t-h-e”在被模型处理前看起来像是三个随机字符，这对于理解句意是不利的。

这种方法通常用于中文等没有空格分隔的语言（作为基础分析）或拼写纠正等特定任务。

# Python 字符串本质上就是序列，所以字符分词非常直接
text = "Tokenization"

# 使用 list() 将字符串拆分为单个字符的列表
character_tokens = list(text)

# 注意：在真实场景中，空格通常也是字符之一
print("字符分词结果:", character_tokens)

分词的方法：规则、统计与机器学习

了解了类型之后，让我们深入探讨一下“如何切分”。在工程实践中，我们主要有以下三种策略：

1. 基于规则的分词

这是最传统的做法，通常利用正则表达式或预定义的字典。比如，你可以规定“遇到空格就切开，遇到标点符号就切开”。

优点： 实现简单，不需要训练数据，对特定领域的格式化文本（如代码、日志）非常有效。
缺点： 无法处理歧义。比如，“纽约市”是应该切分为“纽约”和“市”，还是“纽”、“约”和“市”？单纯靠规则很难判断。

import re

text = "Tokenization is crucial for NLP."

# 使用正则表达式 \b 匹配单词边界，\w+ 匹配一个或多个字母数字字符
# 这会忽略标点符号
word_tokens = re.findall(r‘\b\w+\b‘, text)

print("正则分词结果:", word_tokens)

2. 统计分词

这种方法采用了统计模型来确定 Token 的边界。它主要基于概率，比如计算“字 A 和字 B”经常一起出现的频率。这对于像中文和日文这样没有明确单词边界的语言尤为重要。

在中文分词中，jieba 是一个非常经典且基于统计概率（HMM 模型）的工具。它能根据词频来计算哪种切分方式概率最大。

import jieba

text = "我喜欢自然语言处理"

# lcut 直接返回列表
# jieba 内部维护了一个庞大的词频表，通过计算最大概率路径来切分
word_tokens = jieba.lcut(text)

print("中文分词结果:", word_tokens)
# 输出：[‘我‘, ‘喜欢‘, ‘自然语言‘, ‘处理‘]

实际应用见解： 在处理中文时，如果你的文本包含大量行业术语，一定要向分词器加载自定义词典，否则“斯蒂芬·库里”可能会被切分成“斯蒂芬”、“库”、“里”，严重影响语义理解。

3. 基于机器学习的分词

这是目前高端 NLP 系统的主流选择。它使用机器学习算法从标注数据中学习分词规则，甚至是端到端的分词。例如，BERT 模型使用的 WordPiece 算法本质上就是一种基于学习的子词分词。

让我们看看如何使用工业级的 spaCy 库进行基于神经网络的分词（spaCy 的统计分词器默认经过了大量数据的训练）：

import spacy

# 加载英文模型（需要先运行：python -m spacy download en_core_web_sm）
nlp = spacy.load(‘en_core_web_sm‘)

text = "Tokenization is crucial for NLP."

# spacy 的 nlp 对象会执行完整的流水线处理，其中第一步就是分词
doc = nlp(text)

# 我们可以遍历 Doc 对象来获取 Token
# 这里的分词器不仅切分，还能识别词性（POS）和依存关系
word_tokens = [token.text for token in doc]

print("SpaCy 分词结果:", word_tokens)

常见问题与最佳实践

在大量的项目中，我们总结了一些关于分词的实战经验，希望能帮你避开坑：

不要忽视标点符号： 有时候标点符号对于理解句意至关重要（例如反问句）。在训练情感分析模型时，通常不要直接扔掉感叹号或问号，而是将其保留为独立的 Token。

处理数字和日期： 对于模型来说，每个数字都是独立的类别。如果你把“2023”和“2024”看作两个毫无关系的词，模型很难学习到时间的概念。最佳实践是将所有数字替换为特殊标记如 INLINECODE6df9891e 或 INLINECODE8e6dc37c，除非数字的具体值对任务至关重要（例如价格预测）。

大小写敏感问题： 在分词时，通常会将所有文本转为小写，以减少词汇表大小。但是，在某些特定场景（如命名实体识别）中，大写字母可能代表专有名词，因此需要谨慎处理。

性能优化： 如果你处理的是海量数据（TB级别），像 NLTK 这样的纯 Python 库可能会比较慢。这时可以考虑使用 INLINECODEa376ebe0（底层用 Cython 编写）或者专门的 INLINECODEf2054fba 库（Rust 语言编写），它们的速度通常是纯 Python 库的几十倍甚至上百倍。

总结

我们在这一旅程中从最基础的概念讲到了实用的代码。你可以看到，分词绝不仅仅是“按空格切分”那么简单。它是自然语言处理系统的基石，连接着非结构化的原始文本与强大的机器学习模型。

无论是选择简单的单词级切分，还是采用复杂的子词算法（BPE, WordPiece），关键在于理解你的数据特性和任务需求。希望这篇文章能帮助你更好地理解和应用 NLP 中的分词技术。接下来，你可以尝试在自己的项目数据上运行这些代码，看看不同的分词策略如何影响最终的模型表现。

投稿给我们	如何建站？
vps是什么？	如何安装宝塔？
如何通过博客赚钱？	便宜wordpress托管方案
免费wordpress主题	这些都是免费方案

豆丁博客