精通 SQL 中的正则表达式：从基础到实战的终极指南

2026-02-14 06:43:48 0条评论 59次阅读 0人点赞

在数据处理和日常的后端开发工作中，我们经常面临一个棘手的挑战：如何从杂乱无章的文本数据中提取有价值的信息，或者如何根据复杂的规则来筛选数据？比如，你可能需要从数百万条用户记录中找出所有格式不正确的电子邮件，或者需要从一串混乱的备注中提取出特定的订单号。这时候，传统的 SQL LIKE 操作符和简单的字符串函数往往会显得力不从心，因为它们缺乏处理复杂模式匹配的能力。

这时候，正则表达式就成为了我们的救星。正则表达式（Regular Expression，通常简称为 Regex）是一组由字符和特殊符号组成的序列，它定义了一种搜索模式。在 SQL 中使用正则表达式，不仅能让我们更灵活地匹配文本，还能极大地提高数据清洗和验证的效率。在这篇文章中，我们将深入探讨 SQL 中正则表达式的强大功能，通过实际案例掌握 INLINECODE4c610a6e、INLINECODEd3dc465a 和 REGEXP_SUBSTR 等核心函数，并学习如何编写高效且可维护的正则查询。

为什么我们需要在 SQL 中使用正则表达式？

你可能已经熟悉了 SQL 中的 INLINECODE07364d3c 语句，例如使用 INLINECODEf31529a9 来查找以 A 开头的名字。这在简单的场景下非常有效。但是，当我们遇到更复杂的逻辑时，比如“查找以字母开头，后面跟着数字，且以特定域名结尾的电子邮件”，LIKE 就很难编写了，甚至需要编写多层嵌套的 SQL 语句，这不仅难以阅读，性能也堪忧。

正则表达式正是为了解决这类问题而生的。它提供了一种简洁而强大的描述语言，专门用于文本模式的匹配。让我们先来看一个简单的例子，感受一下它的威力。

#### 示例：验证电子邮件格式

假设我们有一个 users 表，现在想要筛选出所有符合标准电子邮件格式的用户。如果我们不使用正则，可能需要检查“是否包含@符号”、“@后是否有点号”等多个条件。而使用正则，我们只需要一行代码：

-- 查询所有符合标准电子邮件格式的用户
SELECT email 
FROM users 
WHERE REGEXP_LIKE(email, ‘^[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Za-z]{2,}$‘);

这段代码是如何工作的？

^：表示字符串的开始。
INLINECODE9f9b3572：匹配用户名部分。INLINECODEa746f3b2 表示字符集，+ 表示前面的字符出现一次或多次。
@：字面上的 @ 符号。
[A-Za-z0-9.-]+：匹配域名主体。
INLINECODEf4cc210a：匹配字面上的点号（INLINECODEa9bce222）。注意在正则中 INLINECODE97311269 是特殊字符，所以需要用 INLINECODEd28f072d 转义。
[A-Za-z]{2,}：匹配顶级域名（如 com, net），至少 2 个字符。
$：表示字符串的结束。

通过这种方式，我们可以确保只检索到格式严格合规的数据。这就是正则表达式在 SQL 中最直接的应用。

SQL 中的三大正则函数

虽然不同的数据库（如 MySQL, PostgreSQL, Oracle）对正则表达式的支持略有不同，但大多数现代关系型数据库都提供了一套标准的核心函数。在接下来的内容中，我们将重点讲解最通用且强大的三个函数。掌握了它们，你就几乎能解决 90% 的文本处理需求。

#### 1. REGEXP_LIKE：模式匹配的过滤器

INLINECODE4a21c5ed 是最常用的函数，它的作用类似于 INLINECODE0027d06c，但功能强大无数倍。它用于评估一个字符串是否包含指定的正则模式。如果匹配成功，返回 INLINECODE500eca71，否则返回 INLINECODE7c6abbb2。这使得它成为 WHERE 子句中的首选。

基本语法：

REGEXP_LIKE(expression, pattern [, match_parameter])

实战案例：智能搜索产品

假设我们正在运营一个电商系统，老板要求你从 products 表中找出所有产品名称以“iPhone”开头的产品。由于数据录入不规范，可能存在像“ iphone”、“iPhone 12”或者“iPhonePro”这样的变体。

-- 查询所有以字母 ‘A‘（不区分大小写）开头的产品
SELECT product_name, price
FROM products
WHERE REGEXP_LIKE(product_name, ‘^A‘, ‘i‘);

在这个例子中，我们使用了第三个参数 INLINECODE90f92478，这表示“不区分大小写”。这是一个非常实用的技巧，可以避免我们在 SQL 中写繁琐的 INLINECODEa435ec86 或 LOWER() 函数。

扩展思考：

你可能会遇到更复杂的搜索需求。例如，查找产品代码中包含“20”后面跟着两个数字的产品（比如 Series 20xx）。我们可以这样写：

-- 查找包含特定序列模式的产品代码
SELECT product_code
FROM products
WHERE REGEXP_LIKE(product_code, ‘20[0-9]{2}‘);

这比使用 LIKE ‘%20____%‘ 要精确得多，因为它确保了 20 后面紧跟的是数字。

#### 2. REGEXP_REPLACE：强大的数据清洗工具

如果说 INLINECODE00572c48 是用来“找”的，那么 INLINECODEe45c695a 就是用来“改”的。它在数据清洗（ETL）过程中扮演着至关重要的角色。它可以搜索字符串中的模式，并将其替换为新的字符串。这对于删除多余的空格、隐藏敏感信息或格式化显示文本特别有用。

基本语法：

REGEXP_REPLACE(source_string, pattern, replacement_string [, position, occurrence, match_parameter])

实战案例 1：清理电话号码

我们的 INLINECODEdeea73cf 表中的电话号码格式极其混乱，如 INLINECODEc2500ac4、INLINECODEd3b75077 或 INLINECODE97b0e6a0。现在我们需要提取纯数字用于发送短信。

-- 移除所有非数字字符
SELECT 
    original_phone,
    REGEXP_REPLACE(original_phone, ‘[^0-9]‘, ‘‘) AS clean_phone
FROM contacts;

深入解析：

这里的模式 INLINECODEcec6fa0e 是关键。INLINECODEb6bc6d8f 在方括号 INLINECODE82ad727c 内部表示“非”，INLINECODEcc457792 表示数字。合起来 INLINECODE20ea72b4 意味着“所有不是数字的字符”。INLINECODE32dfd425 会将所有这些非数字字符替换为空字符串 ‘‘，从而只留下数字。

实战案例 2：隐藏敏感信息（隐私保护）

为了保护用户隐私，我们在展示用户信息时，通常需要隐藏电子邮件地址的前半部分，只保留域名。

-- 将用户名部分替换为星号，例如 [email protected] -> ****@example.com
SELECT 
    email,
    REGEXP_REPLACE(email, ‘^[_a-zA-Z0-9-%]+‘, ‘****‘) AS masked_email
FROM users;

这个查询展示了正则表达式在合规性和安全性方面的应用。我们可以动态地修改显示内容，而不需要在数据库中物理删除真实数据。

#### 3. REGEXP_SUBSTR：精确的数据提取

有时候我们不需要匹配整行，也不需要替换，而是只需要从一个长文本中提取出符合特定模式的“片段”。这就是 INLINECODE98283d73 的工作。它类似于 INLINECODE170dc469，但它不是按位置截取，而是按模式截取。

基本语法：

REGEXP_SUBSTR(source_string, pattern [, position, occurrence, match_parameter])

实战案例：从日志中提取 URL

假设我们有一个 INLINECODE5d308afc 表，其中的 INLINECODEa9cd7aaf 包含了各种杂乱的文本信息，其中包括 URL。我们需要提取出所有的 URL 进行分析。

-- 从日志中提取 HTTPS 链接
SELECT 
    log_message,
    REGEXP_SUBSTR(log_message, ‘https?://[^ ]+‘) AS extracted_url
FROM system_logs
WHERE REGEXP_LIKE(log_message, ‘https?://[^ ]+‘);

代码解析：

INLINECODEc1b2f6b0：匹配 INLINECODE9871546a 或 INLINECODEe6416bd8（INLINECODEae108f39 表示 s 是可选的）。
://：匹配字面上的协议分隔符。
[^ ]+：匹配所有非空格的字符。这利用了 URL 通常不包含空格的特性。

结合使用 INLINECODE389d097e 进行过滤，再使用 INLINECODE2425062a 进行提取，是处理非结构化文本数据的标准流程。

常用正则表达式语法速查表

为了让你在编写查询时更加得心应手，我们整理了一份最常用的正则表达式符号表。建议你收藏这份清单，因为掌握这些符号是进阶的关键。

模式

描述

示例

匹配结果说明

—

INLINECODE94be6509
匹配任意单个字符（除了换行符）
INLINECODE9ebb2ac8

hat, hit, hot (中间可以是任意字符)

INLINECODE92dce7e2
匹配字符串的开头
INLINECODEa32bbbd0

Apple, Apricot (必须是 A 开头)

INLINECODE7faa04e1
匹配字符串的结尾
INLINECODE2875b70b

sing, bring (必须是 ing 结尾)

INLINECODEbff40748
逻辑“或”操作符
INLINECODE86495c0a

cat 或 dog

INLINECODE37f64f05
前一个字符出现 0 次或多次
INLINECODE3dcbce28

a, ab, abb, abbb

INLINECODEdc16a6e5
前一个字符出现 1 次或多次
INLINECODE5474bd0d

ab, abb (不包含单独的 a)

INLINECODE69c259a3
前一个字符出现 0 次或 1 次
INLINECODE43063eab

color, colour

INLINECODEa3dd3182
恰好匹配 n 次
INLINECODE97aa9b9b

aaa

INLINECODE3ea87ba9
至少匹配 n 次
INLINECODEc6e921fc

aa, aaa, aaaa

INLINECODE6038f804
匹配方括号内的任意一个字符
INLINECODE84417211

任意小写元音字母

INLINECODE24385868
匹配不在方括号内的任意字符（否定）
INLINECODE7ede9287

任意非数字字符

INLINECODEc229c891
匹配范围内的任意字符
INLINECODE3af7ebc9

任意单个数字

INLINECODE1efc201d
单词边界
INLINECODE6e6cb346

cat (但不匹配 scatter 中的 cat)

INLINECODEf7d527e2
分组，用于捕获或应用量词
INLINECODE5187680b

ha, haha, hahaha### 预构建的高级模式库

在实际开发中，我们不需要每次都重新发明轮子。以下是一些可以直接套用的常见正则表达式模式。

验证电子邮件地址（严格版）：

^[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Za-z]{2,}$

用途：在 WHERE 子句中过滤掉格式错误的注册用户。

提取纯数字（如提取 ID）：

^[0-9]+$

用途：确保特定字段只包含数字，防止注入或脏数据。

匹配 HTTP/HTTPS URL：

https?://[^ ]+

用途：从用户评论或笔记中提取可点击的链接。

匹配日期格式 (YYYY-MM-DD)：

^\d{4}-\d{2}-\d{2}$

用途：快速校验日期字符串是否符合标准格式。

最佳实践与性能优化

虽然正则表达式非常强大，但“能力越大，责任越大”。如果不加节制地在海量数据上使用复杂的正则表达式，可能会导致数据库性能急剧下降。作为专业的开发者，我们需要注意以下几点：

优先使用普通索引和函数： 如果简单的 INLINECODEd53c76ed 或 INLINECODE905ca9ee 能解决问题，就不要使用正则。简单的字符串匹配通常能利用标准的 B-Tree 索引，而正则表达式通常会导致全表扫描，除非你使用了专门的支持正则的索引。

避免使用回溯陷阱： 像 (a+)+ 这样的嵌套重复模式在处理某些特定长度的字符串时，会导致计算量呈指数级增长。在编写正则时，尽量保持模式简洁明确。

利用锚点 INLINECODE1c0bf49b 和 INLINECODE4f0972a4： 如果你要匹配整个字符串，一定要加上 INLINECODE1d0968a6 和 INLINECODEf01a9521。这不仅能确保准确性，还能让匹配引擎在发现头部不匹配时立即放弃，从而节省资源。

测试先行： 正则表达式非常容易产生“看起来正确其实有误”的情况（例如遗漏了转义符）。建议在专门的 Regex 测试工具中测试好模式，再放到 SQL 中运行。

结语

正则表达式是 SQL 工具箱中一把锋利的瑞士军刀。通过熟练掌握 INLINECODE21de1415、INLINECODE1521560f 和 REGEXP_SUBSTR，我们可以轻松应对从简单的格式验证到复杂的数据清洗任务。虽然它们的学习曲线稍微有点陡峭，但一旦你习惯了它的逻辑，你会发现自己在处理数据时的效率有了质的飞跃。

在下一次的数据处理任务中，当你面对那些难以用普通 SQL 函数解决的文本难题时，不妨试试正则表达式。试着优化一下现有的查询，看看是否能用更简洁的代码实现同样的功能。希望这篇文章能为你打开 SQL 高效编程的大门！

投稿给我们	如何建站？
vps是什么？	如何安装宝塔？
如何通过博客赚钱？	便宜wordpress托管方案
免费wordpress主题	这些都是免费方案

豆丁博客

精通 SQL 中的正则表达式：从基础到实战的终极指南

为什么我们需要在 SQL 中使用正则表达式？

SQL 中的三大正则函数

常用正则表达式语法速查表

最佳实践与性能优化

结语

相关文章美国1G带宽/1T流量高速vps $17.99/年