深入探讨：如何在 JavaScript 中高效地从字符串移除 HTML 标签

2026-02-07 17:23:19 0条评论 45次阅读 0人点赞

在 Web 开发的日常工作中，我们经常需要处理复杂的字符串数据。尤其是当我们从富文本编辑器、抓取的网页内容或 API 响应中获取数据时，原始字符串往往混杂着大量的 HTML 标签。为了获得纯净的文本内容用于展示、处理或存储，我们必须掌握如何从字符串中剥离这些 HTML 标签。

在这篇文章中，我们将深入探讨几种在 JavaScript 中移除 HTML 标签的常用方法。我们将从简单的正则表达式技巧开始，逐步过渡到利用浏览器强大的 DOM 解析能力。我们不仅会看“怎么做”，还会讨论“为什么这么做”，以及每种方法的适用场景和潜在陷阱。

前置知识：理解 HTML 标签的结构

在正式编写代码之前，让我们先快速回顾一下 HTML 标签的结构，这将有助于我们理解后续的代码逻辑。HTML 文档是由标签构建的树状结构，主要包含以下几种形式：

开始标签： 用于定义元素的开始。它以 INLINECODEe05a033d 符号开头，后面紧跟标签名（如 INLINECODEea68c3ea, INLINECODE8bf31cb9, INLINECODE3308139d），最后以 INLINECODE815d48e7 符号结尾。例如：INLINECODEb98fcf2b, INLINECODE2cc4f6aa。有些标签是自闭合的，如 INLINECODE7138c366 或，但它们本质上遵循相同的模式。
结束标签： 用于定义元素的结束。它以 INLINECODE8f39788c 符号开头，后面紧跟标签名，最后以 INLINECODEf79f34ae 符号结尾。例如：INLINECODEc5331ad7, INLINECODE24087516。

我们的目标是：保留标签之外的文本内容，同时精准地识别并移除上述所有形式的标签结构。

—

0.1 方法 1：使用正则表达式 (replace 函数)

1 欢迎来到前端世界
- 1.1 方法 2：利用 INLINECODE79f93b0b 或 INLINECODE0cee1e8e 属性
- 1.2 方法 3：使用 DOMParser API
2 主标题
- 2.1 常见陷阱与解决方案
- 2.2 总结：选择最适合你的方案

方法 1：使用正则表达式 (`replace` 函数)

这是最直接、最原始，也是最快想到的方法。JavaScript 的 String.prototype.replace() 方法允许我们利用正则表达式来查找并替换字符串中的特定模式。通过编写一个能匹配 HTML 标签的正则表达式，我们可以将其替换为空字符串，从而“擦除”它们。

基础实现

让我们来看一个经典的正则表达式模式：/(]+)>)/ig。

INLINECODE48831873 和 INLINECODE82ab3e00：字面匹配尖括号。
INLINECODE05787fbe：匹配除了 INLINECODE542c9de7 之外的任意字符一次或多次。这意味着只要遇到下一个 >，匹配就停止，这正好对应了标签内部的属性或标签名。
(...)：捕获组，用于捕获整个标签结构。
i (Ignore Case)：忽略大小写，虽然 HTML 标签名不区分大小写，但这增加了容错性。
g (Global)：全局匹配，确保字符串中所有的标签都被移除，而不仅仅是第一个。

代码示例 1：基础剥离功能

/**
 * 使用正则表达式移除 HTML 标签的函数
 * @param {string} str - 包含 HTML 的原始字符串
 * @returns {string|boolean} - 清理后的字符串，若输入无效则返回 false
 */
function removeTags(str) {
    // 1. 输入校验：处理 null, undefined 或空字符串的情况
    if ((str === null) || (str === ‘‘)) {
        return false;
    } else {
        // 确保输入被转换为字符串类型，防止非字符串传入导致报错
        str = str.toString();
    }

    // 2. 核心逻辑：使用 replace 替换匹配到的标签为空字符串
    // 正则解释：/]+)>/ig 用来匹配  这样的结构
    return str.replace(/(]+)>)/ig, ‘‘);
}

// 测试用例
const htmlString = ‘欢迎来到前端世界
这是一个段落。‘;
const cleanText = removeTags(htmlString);

console.log(cleanText); 
// 输出: 欢迎来到前端世界这是一个段落。

深入解析与进阶场景

虽然上面的方法能处理大多数标准情况，但在实际开发中，HTML 的结构往往比这复杂得多。让我们来处理一些更棘手的场景。

场景 A：处理由于移除标签产生的多余空格

当你移除 INLINECODE89a11bb1 或 INLINECODEf0a204b4 等块级元素标签时，原本被标签隔开的文本可能会粘连在一起，或者产生多余的空格。我们需要对清理后的字符串进行二次加工。

代码示例 2：优化文本格式（去除多余空白）

function cleanAndFormat(html) {
    if (!html) return "";

    // 第一步：剥离标签
    let text = html.replace(/]*>?/gm, ‘‘);

    // 第二步：处理 HTML 实体（如   , < 等）
    // 简单的处理方式是创建一个临时元素（见后文方法），或者简单替换常见的实体
    text = text.replace(/ /g, ‘ ‘);

    // 第三步：规范化空白字符
    // 将连续的空白字符（包括换行、制表符、空格）替换为单个空格
    text = text.replace(/\s+/g, ‘ ‘).trim();

    return text;
}

const messyHtml = ‘  Hello   
  World!‘;
console.log(cleanAndFormat(messyHtml));
// 输出: "Hello World!" (注意：Hello 和 World 之间保留了语义上的空格)

正则表达式的局限性

作为经验丰富的开发者，我们必须诚实地告诉你：正则表达式并不是解析 HTML 的完美工具。HTML 的上下文文法非常复杂，正则表达式很难处理嵌套错误或某些极端情况。例如，如果你的字符串中包含一个脚本标签 INLINECODE8ed3085b，简单的正则 INLINECODEf43953c7 可能会在遇到 > 时截断，导致代码解析错误或移除不完整。

因此，对于结构复杂、来源不可信的 HTML 字符串，我们更推荐使用下面这两种基于 DOM 解析的方法。

—

方法 2：利用 INLINECODE79f93b0b 或 INLINECODE0cee1e8e 属性

浏览器本身就内置了强大的 HTML 解析引擎。如果我们能将字符串转换为浏览器可理解的 DOM 元素，那么浏览器会自动帮我们处理标签的结构。我们只需要提取其中的文本内容即可。

核心原理

创建一个临时的 DOM 元素（通常是 INLINECODE6ffdb232 或 INLINECODEbc060504）。
将该元素的 .innerHTML 属性赋值为我们的 HTML 字符串。此时，浏览器会解析这串 HTML 并生成 DOM 树。
访问该元素的 INLINECODE2c924384（标准属性）或 INLINECODE47919bfd（非标准但广泛支持，处理样式和换行）属性。这两个属性会自动忽略所有子标签，只返回拼接后的文本。

为什么这是一种“黑科技”？

这种方法不仅移除了标签，还自动处理了 HTML 实体（Entity）。比如 INLINECODE2dc13fbf 会被转换为 INLINECODE49bfa9ad，INLINECODE16abf647 会被转换为 INLINECODEa0dd7332。这是正则表达式很难做到的。

代码示例 3：安全地提取文本（推荐用于纯文本提取）

function stripHtmlUsingDOM(html) {
    // 1. 创建一个临时的 div 元素
    const tmpDiv = document.createElement("div");

    // 2. 将 HTML 字符串注入该元素
    // 注意：如果有恶意脚本（...），在这里仅设置 innerHTML 通常不会执行脚本，
    // 但为了安全起见，不要将未经过滤的用户输入直接插入到页面 DOM 中。
    tmpDiv.innerHTML = html;

    // 3. 提取文本
    // 使用 textContent 是标准做法，性能较好
    // innerText 会触发布局重排，因为它考虑了 CSS 样式（如 display: none），性能略低但更符合视觉所见
    return tmpDiv.textContent || tmpDiv.innerText || "";
}

const htmlContent = "这是 加粗 的文本，包含 链接。";
console.log(stripHtmlUsingDOM(htmlContent));
// 输出: "这是 加粗 的文本，包含 链接。"

性能与最佳实践

在处理大量数据时，频繁操作 DOM 是昂贵的。但在 Node.js 等非浏览器环境中，INLINECODEc4bcc59e 对象是不存在的（除非使用 INLINECODEd5c6507d 等库）。因此，这种方法主要局限于浏览器环境。

—

方法 3：使用 `DOMParser` API

如果你需要一个更正式、更符合“解析文档”语义的解决方案，INLINECODEbaf1f3ca 是最佳选择。与简单的 INLINECODE49e33a38 不同，INLINECODEb92ea6df 专门设计用于将整个字符串解析为一个完整的 INLINECODE18d38406 对象。

为什么使用 DOMParser？

隔离性： 它不会将解析的内容添加到当前页面的 DOM 树中，避免了副作用。
完整性： 即使传入的字符串是完整的 HTML 文档（包含 INLINECODE86084179, INLINECODE3c0ca4e1, ），它也能正确处理。
安全性（相对）： 它可以更容易地解析 XML 或 SVG。

代码示例 4：使用 DOMParser 进行专业解析

/**
 * 使用 DOMParser 移除 HTML 标签并提取纯文本
 * @param {string} htmlString - 原始 HTML 字符串
 * @returns {string} - 提取后的纯文本
 */
function removeHTMLTagsUsingParser(htmlString) {
    // 1. 实例化 DOMParser
    const parser = new DOMParser();

    // 2. 将字符串解析为 HTML 文档
    // ‘text/html‘ 指定了 MIME 类型
    const doc = parser.parseFromString(htmlString, ‘text/html‘);

    // 3. 从解析后文档的 body 中提取文本
    // 使用 body 节点可以忽略 head 中的 style、title 等无关内容
    let textContent = doc.body.textContent || "";

    // 4. 数据清洗：去除首尾多余的空格
    return textContent.trim();
}

// 测试用例：包含完整文档结构的字符串
const fullHtmlDoc = `
    
    
        忽略我
        
            主标题
            这不仅是文本，更是数据。
        
    
`;

console.log(removeHTMLTagsUsingParser(fullHtmlDoc));
// 输出: "主标题 这不仅是文本，更是数据。"

实际应用场景：预览截取

在开发文章列表或评论列表时，我们经常需要生成“摘要”。通过 DOMParser，我们可以移除标签，然后截取前 N 个字符，生成干净的预览文本，而不会出现截断了一半的 HTML 标签导致的布局错乱。

代码示例 5：生成安全的文章摘要

function generateSafePreview(htmlContent, maxLength = 100) {
    const parser = new DOMParser();
    const doc = parser.parseFromString(htmlContent, ‘text/html‘);
    
    // 获取纯文本
    let text = doc.body.textContent || "";
    
    // 截取指定长度
    if (text.length > maxLength) {
        text = text.substring(0, maxLength) + "...";
    }
    
    return text;
}

const longContent = ‘点击 这里 阅读更多关于 JavaScript 编程的详细内容。这是一篇非常长的文章...‘;
console.log(generateSafePreview(longContent, 20));
// 输出: "点击 这里 阅读更多关于 J..."

—

常见陷阱与解决方案

在处理 HTML 字符串时，我们经常会遇到一些头疼的问题。让我们看看如何解决它们。

1. 处理 INLINECODEd251d37b 和 INLINECODE75e51b24 标签

如果你直接提取 INLINECODE360bfb15，INLINECODEedc75186 和标签内部的代码（CSS 或 JS）也会被视为文本提取出来，这通常不是我们想要的。

解决方案： 在提取文本前，先手动删除这些元素。

function stripHtmlWithCleanup(htmlString) {
    const parser = new DOMParser();
    const doc = parser.parseFromString(htmlString, ‘text/html‘);

    // 移除所有 script 和 style 标签
    // 使用 Array.from 将 HTMLCollection 转换为数组以便遍历
    const unwantedTags = doc.querySelectorAll(‘script, style‘);
    unwantedTags.forEach(tag => tag.remove());

    return doc.body.textContent.trim();
}

2. 处理换行符

HTML 中的 INLINECODEf593b2e2 标签在 INLINECODEcf7137a2 中会消失，导致文本粘连。为了可读性，你可能想将 INLINECODE1124ef6d 替换为换行符 INLINECODE58529101，或者将

标签替换为双换行。

解决方案： 在解析前先进行字符串替换，或者在 DOM 遍历时手动插入换行。这里展示一种简单的字符串预处理方法：

function preserveLineBreaks(html) {
    // 将 
 替换为特殊的换行标记，然后再移除其他标签
    // 注意：这只是一个简化的处理，实际情况可能需要更复杂的逻辑
    let processedHtml = html.replace(/
/gi, ‘
‘);
    // 将块级元素结尾替换为换行
    processedHtml = processedHtml.replace(/||/gi, ‘
‘);
    
    // 现在使用之前的 DOM 方法移除剩余标签
    const div = document.createElement("div");
    div.innerHTML = processedHtml;
    return div.textContent.replace(/
\s*
/g, ‘
‘).trim(); // 清理多余的连续换行
}

—

总结：选择最适合你的方案

在这篇文章中，我们探讨了三种从字符串中移除 HTML 标签的主要方法。作为开发者，我们需要根据具体场景做出权衡：

replace() + 正则表达式：适合非常简单的任务，或者是那种对性能极其敏感且不需要处理复杂 HTML 实体的场景。它轻量但脆弱。
INLINECODE15315ecc / INLINECODE37c8c12f：浏览器端最通用的“中庸之道”。它能自动处理 HTML 实体，代码量少，且利用了浏览器原生引擎，非常适合大多数前端页面逻辑。
INLINECODE2cb18272：最专业、最健壮的方案。特别适合处理包含完整文档结构的字符串，或者当你需要对解析过程有更精细的控制（如移除 INLINECODE269e8de2 标签）时使用。

最后的建议： 无论你选择哪种方法，始终要记住数据来源的安全性。如果你的 HTML 字符串来自用户输入（即用户可以输入任意 HTML），仅仅移除标签并不足以防范 XSS（跨站脚本攻击）。在将任何用户生成的内容放入页面之前，请务必使用专门的消毒库（如 DOMPurify）进行深度清洗，或者确保你在提取文本后，通过 INLINECODE43ff1e33 等安全属性进行渲染，而不是 INLINECODE5508d8a3。

希望这些技巧能帮助你在处理字符串时事半功倍！如果你有更独特的处理需求，不妨尝试组合使用上述方法。

投稿给我们	如何建站？
vps是什么？	如何安装宝塔？
如何通过博客赚钱？	便宜wordpress托管方案
免费wordpress主题	这些都是免费方案

豆丁博客

深入探讨：如何在 JavaScript 中高效地从字符串移除 HTML 标签

前置知识：理解 HTML 标签的结构

方法 1：使用正则表达式 (`replace` 函数)

基础实现

欢迎来到前端世界

深入解析与进阶场景

方法 2：利用 INLINECODE79f93b0b 或 INLINECODE0cee1e8e 属性

核心原理

为什么这是一种“黑科技”？

性能与最佳实践

方法 3：使用 `DOMParser` API

为什么使用 DOMParser？

主标题

实际应用场景：预览截取

常见陷阱与解决方案

1. 处理 INLINECODEd251d37b 和 INLINECODE75e51b24 标签

2. 处理换行符

总结：选择最适合你的方案

相关文章美国1G带宽/1T流量高速vps $17.99/年

深入探讨：如何在 JavaScript 中高效地从字符串移除 HTML 标签

前置知识：理解 HTML 标签的结构

方法 1：使用正则表达式 (replace 函数)

基础实现

欢迎来到前端世界

深入解析与进阶场景

方法 2：利用 INLINECODE79f93b0b 或 INLINECODE0cee1e8e 属性

核心原理

为什么这是一种“黑科技”？

性能与最佳实践

方法 3：使用 DOMParser API

为什么使用 DOMParser？

主标题

实际应用场景：预览截取

常见陷阱与解决方案

1. 处理 INLINECODEd251d37b 和 INLINECODE75e51b24 标签

2. 处理换行符

总结：选择最适合你的方案

相关文章美国1G带宽/1T流量高速vps $17.99/年

方法 1：使用正则表达式 (`replace` 函数)

方法 3：使用 `DOMParser` API