深入解析 ReAct 提示工程：让 AI 学会像人类一样“思考”与“行动”

2026-02-13 20:56:11 0条评论 81次阅读 0人点赞

在人工智能的应用中，你是否遇到过这样的情况：虽然大语言模型（LLM）能够生成流畅的文本，但在面对需要逻辑推理或获取实时信息的问题时，它们往往会一本正经地胡说八道？这主要是因为传统的模型是基于静态参数知识进行预测的，它们缺乏“停下来思考”以及“与现实世界交互”的能力。

为了解决这个问题，ReAct（Reasoning + Acting，推理+行动）提示技术应运而生。在这篇文章中，我们将深入探讨 ReAct 技术的核心原理、工作机制以及实际应用。我们将看到，通过将“推理”与“行动”相结合，AI 模型能够构建出更可解释、更准确的解决路径。这将使我们在构建机器人、智能客服或决策系统时，获得更强大的控制力。

1 什么是 ReAct（推理+行动）？
2 ReAct 的工作原理：拆解核心机制
3 实战代码示例：构建 ReAct 循环
4 ReAct 提示的实际应用对比：数字推理
5 ReAct 模型如何学习？深入探究少样本提示
6 最佳实践与性能优化建议
7 总结与下一步

什么是 ReAct（推理+行动）？

ReAct 是一种先进的提示框架，它不仅仅让模型生成答案，还要求模型生成一个由思考和行动交替组成的序列。这种技术模仿了人类解决问题的自然方式：当我们面对一个复杂任务时，我们通常会先分析现状，然后采取一个小步骤，观察结果，再进行下一步行动。

在传统的提示模式中，模型往往直接给出最终结果，中间的思维过程对用户是不可见的，甚至是缺失的。ReAct 的核心在于它强迫模型展示其“心路历程”，这有助于我们理解模型是如何得出结论的，同时也让模型能够利用外部工具（如搜索API、数据库查询等）来修正自己的推理路径。

这种技术在以下动态环境中尤为有用：

机器人技术：机器人需要感知环境（推理）并移动肢体（行动）。
客户服务：AI 需要理解客户意图（推理）并查询订单数据库（行动）。
复杂决策系统：在多变的条件下，系统需要根据反馈不断调整策略。

!<a href="https://media.geeksforgeeks.org/wp-content/uploads/20251211125052226416/frame3052.webp">frame3052

ReAct 的工作原理：拆解核心机制

让我们深入了解一下 ReAct 是如何工作的。它的核心可以归纳为三个主要方面：推理与行动的结合、任务的序列化分解，以及动态的决策制定。

1. 结合推理与行动：打破思维与执行的壁垒

在传统的 AI 模型中，推理（内部思考）和行动（输出结果）往往是分离的。模型在内部进行“黑盒”运算，直接吐出文本。ReAct 通过特定的提示结构，使模型在生成最终答案之前，显式地生成推理轨迹和行动步骤。

这种方式使得 AI 能够像人类一样，根据环境的变化实时调整自己的行动。

现实生活中的例子：

想象一下我们在城市中驾驶并导航。

传统模型：可能只是告诉你“向左转”，但不知道为什么，也不知道路况。

ReAct 模型：它会先思考“目前的路线拥堵，我需要寻找替代路线”，然后执行行动“重新规划路线导航”。如果它看到前方道路封锁，它会再次进行推理“道路封锁，需要绕行”，并随之调整行动指令。这种连续的“观察-思考-行动”循环，是 ReAct 的精髓。

2. 序列化步骤：将大问题拆解为小目标

ReAct 的另一个强大之处在于它能够自动将复杂问题分解为更小的、可管理的步骤。在每一步的推理之后，它都会根据当前的进展采取一个具体的行动。这构建了一个不断向前推进的链条，每一个行动都建立在前一个推理步骤的观察之上。

扫地机器人的例子：

假设我们指派一个机器人去打扫房间。

思考（推理）：地板上散落着杂物，我必须先清理它们，否则吸尘器可能会卡住。

行动：机器人移动到杂物旁，机械臂捡起物品放入垃圾桶。

观察：地面已清理干净。

思考（推理）：既然杂物已清理，现在可以进行深度清洁了。

行动：打开吸尘器开关，开始清扫。

通过这种一步步的连续推理和行动，机器人能够有条不紊地完成任务，而不是盲目地乱撞。

3. 制定动态决策：在行动中修正方向

ReAct 提倡在行动过程中进行实时的决策制定。它不会等到任务结束才评估结果，而是在每一步都进行自我审视。如果当前的行动没有带来预期的结果，模型会意识到这一点，并调整其下一步的策略。

开门任务的例子：

如果机器人被分配去开门。

尝试 1：机器人推理“门把手通常是向左或向右转的”，它尝试向右转动把手（行动）。观察发现门没开，依然锁着。

调整：机器人再次推理“把手转动了但门没开，说明可能被反锁了，或者需要钥匙”。

行动：它决定去寻找钥匙或检查是否有密码锁面板。

这种动态灵活性使得 ReAct 系统比死板的脚本程序更加智能和健壮。

实战代码示例：构建 ReAct 循环

为了更好地理解 ReAct，我们不仅要看理论，还要看它是如何在代码中实现的。下面的示例展示了如何通过提示词来引导大模型进行 ReAct 循环。通常我们会设计一个包含 INLINECODEf1fcd78a（思考）、INLINECODEea242bdf（行动）和 Observation（观察）的循环结构。

示例 1：构建基础的 ReAct 提示词模板

在代码中，我们可以定义一个模板来强制模型输出特定的格式。这是一种“思想链”的变体。

# 这是一个用于演示 ReAct 机制的简化代码逻辑 # 在实际应用中，你会将此提示词发送给 LLM react_prompt_template = """ 你是一个智能助手，请使用以下格式回答问题：问题：{input_question} 请按以下步骤思考并行动：思考：你对当前情况的分析和推理行动：你要执行的具体操作（如：查询数据库、进行计算、搜索网络）开始：思考：我需要分析这个问题并找到解决办法。行动：... """ # 模拟场景：解决数学问题 user_question = "如果我有一个半径为 5 的圆形花坛，我想知道它的面积是多少？" # 生成完整的 Prompt prompt = react_prompt_template.format(input_question=user_question) # 我们期望模型生成的输出结构类似于： # 思考：用户询问圆形的面积。我记得圆面积公式是 π * r * r。 # 行动：应用公式 π * 5^2 来计算面积。 """ print("提示词模板构建完成。这种结构强迫模型先思考逻辑，再执行计算。")

代码原理解析：

在这段代码中，我们并没有真正运行模型，而是构建了引导模型进行 ReAct 的“轨道”。关键在于明确要求模型输出“思考”和“行动”标签。这种结构化的输出使得我们（开发者）可以在后台解析模型的输出：如果是“思考”，我们记录日志；如果是“行动”（比如调用某个工具），我们在代码中执行该工具，然后将结果反馈给模型。这就形成了真正的 ReAct 闭环。

示例 2：模拟 ReAct 解决多步逻辑问题

让我们看一个更复杂的例子，模拟模型如何处理需要多个步骤的问题。我们将模拟一个“假想的”LLM 响应过程，来展示 ReAct 的实际样子。

# 模拟一个 ReAct 循环的函数 def simulate_react_solver(question): print(f"--- 问题: {question} ---") # 步骤 1: 初始推理 thought_1 = "用户想知道他有几本书。我需要检查他的库存清单。" action_1 = "检查图书库存数据库" print(f"思考 1: {thought_1}") print(f"行动 1: {action_1}") # 模拟系统反馈（环境响应） observation_1 = "系统反馈: 数据库显示他有 12 本科技书和 3 本小说。" print(f"观察 1: {observation_1}") # 步骤 2: 基于反馈的再次推理 thought_2 = "我得到了两个类别的书籍数量。为了回答总数，我需要将它们相加。" action_2 = "执行加法运算: 12 + 3" print(f"思考 2: {thought_2}") print(f"行动 2: {action_2}") # 最终答案 final_answer = "最终答案: 用户总共有 15 本书。" print(f"{final_answer}") print("-" * 30) # 运行模拟 simulate_react_solver("请问我现在总共有多少本书？")

深入讲解：

在这个例子中，我们模拟了完整的 INLINECODEaef24f64 流程。你可能会注意到，在 INLINECODEe49029fe 步骤后，模型并没有直接给出答案，而是再次进行了 Thought 2。这就是 ReAct 的关键——它能够根据环境反馈（数据库返回的数值）调整它的行动目标（从“查询”变为“计算”）。如果我们在提示工程中忽略这一点，模型可能会在第一次行动中就试图猜测总数，从而导致错误。

示例 3：处理错误和修正

ReAct 最大的优势之一是纠错能力。让我们看看如果行动出错了会发生什么。

# 模拟 ReAct 在遇到错误时的自我修正流程 def simulate_react_with_error_recovery(): print("--- 场景: 尝试读取用户文件 ---") # 第一次尝试 thought_1 = "用户想看文件内容。我应该尝试读取 /docs/user_report.txt。" action_1 = "Open(‘/docs/user_report.txt‘)" print(f"思考 1: {thought_1}") print(f"行动 1: {action_1}") # 模拟错误反馈 observation_error = "系统错误: 文件未找到。目录为空。" print(f"观察 1: {observation_error}") # 错误处理与修正 thought_2 = "糟糕，文件不在那里。这可能是路径错误，或者文件在子目录中。我应该先列出目录内容来确认位置。" action_2 = "ListDirectory(‘/docs/‘)" print(f"思考 2: {thought_2}") print(f"行动 2: {action_2}") # 新的反馈 observation_2 = "系统反馈: 找到子目录 ‘archive‘ 和文件 ‘report_final.txt‘。" print(f"观察 2: {observation_2}") # 最终成功 thought_3 = "我找到了正确的文件名 ‘report_final.txt‘。这次我会读取这个文件。" action_3 = "Open(‘/docs/report_final.txt‘)" print(f"思考 3: {thought_3}") print(f"行动 3: {action_3}") print("结果: 文件读取成功。") simulate_react_with_error_recovery()

实战见解：

这是一个非常实用的案例。在开发 AI Agent（智能体）时，API 调用失败、网络超时或数据格式错误是家常便饭。ReAct 提示框架通过强迫模型先进行“思考为什么失败了”这一步，极大地提高了系统的鲁棒性。没有 ReAct 的模型在遇到错误时，往往会陷入幻觉循环（一直重复错误的命令）或者直接放弃。而有了 ReAct，模型会尝试不同的策略（如查看目录列表），这就像一个经验丰富的程序员在调试代码。

ReAct 提示的实际应用对比：数字推理

为了让你更直观地感受到 ReAct 带来的变化，让我们再回到具体的文本提示案例。我们可以对比一下普通模型和使用 ReAct 技术的模型在处理同样问题时的区别。

案例 1：减法问题

提示词:

> "我有 10 个苹果，送出去了 3 个，我现在有几个苹果？"

未使用 ReAct（单一推理）：

模型回答: "你还有 7 个苹果。"

分析: 答案是正确的，但模型只是输出了结果。如果数字更复杂或者中间有干扰项，这种模式很容易出错。

使用 ReAct 提示（推理与行动结合）：

思考: "我初始有 10 个苹果。任务是要送出 3 个。我需要进行减法运算。"

行动: "计算 10 – 3。"

观察: "结果是 7。"

最终答案: "你还有 7 个苹果。"

分析: 这里展示了完整的逻辑链条。即使数字变成了 10,024 和 3,882，ReAct 模型依然能清晰列出“思考减法 -> 执行计算”的步骤，大大降低了算错的可能性。

案例 2：多步场景

提示词:

> "你的篮子里有 12 个橙子，你又买了 5 个，现在你有几个橙子？"

未使用 ReAct：

模型回答: "你有 17 个橙子。"

使用 ReAct 提示：

回答 1 (思考): "当前状态是 12 个橙子。事件是增加 5 个。这需要加法运算。"

行动: "将 5 加到 12 上。"

回答 2 (思考): "计算得出 17。这是最终答案。"

最终答案: "你有 17 个橙子。"

这种过程展示了解决方案的互动性，它不仅仅是给出一个数字，而是模拟了人类解决问题的心理过程，这对于需要高度可解释性的领域（如金融或医疗）至关重要。

ReAct 模型如何学习？深入探究少样本提示

你可能会好奇，模型是如何学会这种“思考”和“行动”的模式呢？ReAct 模型通常是通过少样本提示来“学习”的。这并不是通过调整模型的权重来训练（就像微调那样），而是通过在提示词中提供精心设计的示例，让模型模仿这种模式。

示例驱动学习：我们在 Prompt 中给模型看几个包含“思考”、“行动”、“观察”的完整例子。模型会识别出这种模式，并在面对新问题时自动套用这种结构。

推理链的链接：模型通过示例学会了将当前的行动与之前的推理链接起来。它知道行动是为了验证思考，而观察是为了指导下一步的思考。

知识迁移：通过少样本学习，模型可以将学到的推理和行动过程迁移到它从未见过的新任务中。只要新任务符合“推理-行动”的逻辑框架，模型就能利用它的通用知识来解决问题。

动态适应：这种训练方法使得模型具有了动态灵活性。当模型在一个步骤中观察到非预期结果时，它通过模仿示例中的错误处理逻辑，能够调整后续的行动，而不是死板地执行原定计划。

最佳实践与性能优化建议

当我们试图在自己的项目中应用 ReAct 时，仅仅了解概念是不够的。以下是我们根据实战经验总结的一些关键建议：

清晰定义工具集：在 ReAct 系统中，“行动”往往意味着调用外部工具。确保你的 Prompt 中明确列出了模型可以使用的工具（例如：搜索引擎、计算器、数据库接口）。如果模型不知道它可以用什么工具，它就会产生幻觉。

处理“循环陷阱”：有时候，模型可能会陷入“思考->行动->思考->行动”的死循环中，无法给出最终答案。为了避免这种情况，建议在 Prompt 中添加最大迭代次数限制，或者明确指示模型“如果你已经有了足够的信息，必须输出‘最终答案’”。

观察格式的重要性：为了在代码层面解析模型的输出，“观察”步骤的反馈必须非常明确。如果外部工具返回的是乱码或 HTML 代码，模型可能会无法理解。请务必在将信息反馈给模型之前进行清洗和格式化。

避免思维发散：ReAct 鼓励模型进行推理，但有时模型可能会过度思考，分析一些无关紧要的细节。我们可以在 Prompt 中添加指令：“保持推理简短且切中要害”，以此来提高响应速度。

总结与下一步

在这篇文章中，我们深入探讨了 ReAct（推理+行动）提示技术。我们了解到，ReAct 不仅仅是一种生成文本的技巧，更是一种构建智能代理的框架。它通过模仿人类的认知过程，将“思考”和“行动”交织在一起，解决了传统 AI 模型缺乏逻辑透明度和与环境交互能力的问题。

从构建基础的提示词模板，到处理复杂的错误修正循环，我们已经掌握了将静态模型转变为动态问题解决者的关键技能。ReAct 使得 AI 在机器人、客户服务和自动化决策等领域的应用变得更加可靠和智能。

接下来的步骤：

如果你想进一步提升自己的技能，建议尝试自己编写一个简单的 ReAct Agent。你可以选择自己擅长的编程语言（如 Python），结合 LangChain 这样的开源框架，或者直接调用大模型的 API，来构建一个能够自动查询天气或管理日程的小助手。在实践中去体会“思考”与“行动”的平衡，你会发现 AI 的潜力远不止于此。

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。如需转载，请注明文章出处豆丁博客和来源网址。https://shluqu.cn/46186.html

点赞分享



打开微信“扫一扫”，打开网页后点击屏幕右上角分享按钮

0.00 平均评分 (0% 分数) - 0 票

< 上一篇

下一篇 >

相关文章美国1G带宽/1T流量高速vps $17.99/年

2026 前瞻：有向无环图 (DAG) 最短路径算...

C 语言字符串深度指南：2026 年视角下的内...

Python 与 Java 的 2026 年终极对决：深入...

如何像架构师一样发送GRE成绩：融合2026 A...

深入解析 SQL 字符串函数：从基础到进阶的...

如何使用 jQuery 修改超链接的 href 属性

深入理解齐纳二极管：从原理到电路实战的...

深入理解甲醇：从分子结构到化学反应与应...

投稿给我们	如何建站？
vps是什么？	如何安装宝塔？
如何通过博客赚钱？	便宜wordpress托管方案
免费wordpress主题	这些都是免费方案