ai agent的热度持续升温，但真正的成功并不在于“看得见”的功能，而是藏在底层的系统设计与业务理解中。本文从“冰山模型”出发，拆解ai agent落地的关键要素，揭示那些被忽视却决定成败的90%隐性工程。

"

在聊 agent 之前，我想先带大家看看一位“圈内大佬”的看法。

他就是 openai 的 ceo，山姆·奥特曼（sam altman）。奥特曼曾分享过他对通用人工智能（agi）进化路径的洞察，将ai的发展分成了五个阶段。

如果把通往 agi 的道路比作一场升级打怪，目前我们发展到哪个阶段了呢？

l1阶段，chatbot像chatgpt3.5这样的“聊天机器人”。它能理解和生成文本，像一个聪明但缺乏行动力的大脑。
l2阶段，reasoner像deepseek、openai-o1一样具备“推理能力”（reasoner）的模型。它们能进行复杂的多步思考，也就是我们常说的“思维链”（chainofthought），让ai学会了“如何思考”。
l3阶段，agent便是我们今天的主角——“智能体”（agent）。在这个阶段，ai不仅能思考，还被赋予了“手和脚”，可以自主地与外部世界交互并完成任务。
l4阶段，innovator是“创新者”。ai能自主进行科学研究和产品创新，生成全新的知识。
l5阶段，organizations是“组织”。ai能够像一个公司一样，处理所有任务，一个ai就能完成整个公司的工作。

山姆·奥特曼在早期的访谈中，就曾分享过他对agi进化路径的洞察。当时这些展望还停留在理论，而如今，他的预言正在一步步变为现实。

没错，我们当前就处在l3，agent阶段。

agent是什么？

agent 是一种能够观察世界、调用工具并采取行动以实现特定目标的大模型应用；它不仅具备自主性，还能主动推理下一步策略。

网上有各种定义，我认为解释得最好的是anthropic： agent是让模型基于环境反馈去使用工具的一个程序。

说得更通俗易懂一些：像人一样执行任务。

"

像人一样执行任务，人类和ai的行为模式到底有哪些区别呢？

人类和ai的行为模式区别

"

第一个区别：交互方式

我们人类是“视觉动物”，人类的交互主要依赖视觉，因此为人类设计的产品需要一个前端界面，而 agent 则可以通过文本和多模态在后端实现交互。

第二，人需要“专注”，ai能“一心多用”

人类无法同时「做事情」和「学东西」，因为这两者涉及到大脑的不同区域。但 agent 却可以通过强化学习，在执行任务的同时进行学习。因此，为 agent 设计产品时，至关重要的是设计一套奖励机制。

举个例子，当你使用浏览器时，系统不会频繁弹出窗口来评价你的操作是否正确。但如果是为 agent 设计的浏览器，就需要时时提供 +1分，以便它在下次执行任务时表现得更好。

第三个区别是单线程 vs 多线程

有一个经典的对比：人的工作模式很像“贪婪算法”，总是关注眼前最有利的局部最优解，一步步完成任务。上一个任务的结束，就是下一个任务的开始，是一种单线程的逐一完成模式。

而 ai 的模式则很像「动态规划」，它能同时在多个节点上并行处理很多任务，始终追求全局最优解。

不过这也引发了一个问题：当 agent 并发执行任务时，该怎么保持不同任务的状态？

对于人类来说，上一个任务的结束就是下一个任务的开始，因此天然不需要去保持状态。

然而，agent 在一个节点上可能同时执行 100 个任务，这些任务的执行速度各异，有些快，有些慢，甚至有些可能需要人工干预，所以需要设计一种新的机制保证 agent 能高效稳定地在不同任务间切换和协调。

第四个区别：人的边界，ai的“安全围栏”

人可以为自己的行为负责，但如果一个ai agent出了问题，谁来承担责任？

比如你手里有一段代码，如果这段代码是你自己写的，你当然可以接受这段代码直接在你的电脑上运行，因为出了问题你可以负责。

但如果这段代码是 ai 生成的呢？如果运行之后，你的文件全丢了，谁来负责？

为了解决这个难题，ai agent执行任务时最基本的要求，就是要有一个“安全围栏”（sandbox，沙盒）。这个围栏就像一个虚拟的保护罩，将ai产生的影响控制在一个安全的范围内。

这个安全围栏并不是要一刀切地限制住 agent 的能力，而是要动态判断哪些任务和信息可以交由 agent 处理，而哪些不能。

ai agent 技术栈全景

虽然我们看到的大部分“智能”表现来自顶层的 ai 模型，但真正支撑 agent 运作、使其可靠和强大的，是水面下的庞大工程体系。

"

给大家举个通俗易懂的例子：将ai agent比作一辆车，大模型就是发动机，但是还需要方向盘，车轮子、油路、电控系统等。

从水面上的应用层到水面下的技术基座，我将逐一给大家讲个明白～

水平面顶层–ai agents 应用层

这是冰山顶端，也是咱们用户直接接触到的产品。

市场上比较火的agent产品有：manus、flowith、lovart、cursor、harvey等

"

现在，让我们一起“潜入”水下，看看一个aiagent到底是如何工作的。看看 ai agent为了能真正地给人类干活，到底付出了多少的努力。

中层：ai agent 核心能力与工程支撑

1. 规划——agent的“大脑管家”

没有规划的 ai，就像一个没做复习提纲的学生，回答问题可能思维跳来跳去、不够全面。有了规划的 ai，才会更像一个靠谱的助手：懂目标、会拆解、能反思，还能自己改进。

规划的四大能力

1）目标拆解（subgoal decomposition）

把一个大任务拆解成可执行的小任务，类似于to do list。

把“策划发布会”分解成“找场地”、“做ppt”、“写宣传文案”等小任务。这个环节才是agent真正强大的地方，也是它能处理复杂问题的关键。

2）思维链（chain of thoughts）

一个聪明的项目经理，在分配任务之前，会先在脑子里把整个流程“想”一遍。ai agent也一样，它会先在“大脑”里跑一遍自己的思维链，这就是chain of thought（简称cot）

再给大家举个例子方便理解：比如，我让agent写一篇关于ai agent的文章时，它不会立刻动笔。它会先在内部进行一个“头脑风暴”：

第一步：需要上网搜集关于agent的最新论文；

第二步：分析这些论文，找出核心观点；

第三步：根据这些观点，生成文章大纲；

第四步：根据大纲填充内容……

这个一步步‘想’的过程，就是ai领域的“思维链”（chain of thought）。”

正是因为有了这个“思维链”，agent才能将一个复杂、模糊的任务，变成一个清晰、可执行的计划。它不仅能帮助agent完成任务，还能在任务失败时，让agent知道问题出在哪里，从而进行自我修正。

所以说，“思维链”是agent拥有强大“任务管理”和“自我纠错’能力的关键。它就像是agent的“内在独白”，让它从一个简单的执行者，进化成一个真正会思考的智能体。”

3）反思（reflection）

让 agent 在完成任务后，回顾自己做得到底对不对。

写完一段代码后，agent 会检查：

就像人写完文章后会“回头读一遍”一样，检查有没有逻辑错误，有没有错别字，标点符号是否正确等。

4）自我批评（self-critics）

让 agent给自己挑毛病，然后改进。

ai 写了一篇文案，自己会问：

然后再从表达上润色一遍。

自我批评，让 ai 从“只会输出”进化到“会自我迭代”。

这也是我为什么说规划是agent的“大脑管家”，因为它不仅帮你执行，还会提前计划、过程监督、事后复盘。

2. 记忆（memory）

记忆（memory）是什么？

在大模型里，记忆（memory）就像人的大脑记忆：它帮助模型不仅能“即时对话”，还可以“有前后文”、“能记住事情”。

如果没有记忆，模型每次回答问题都像失忆了一样：用户一旦关掉对话窗口，它就不记得之前发生的事。

有了记忆之后，ai 才能变得更像“一个真正的助手”——懂你、记得你、会总结你的习惯。

1）短期记忆（short-term memory）

对应上下文窗口（context windows）。

就像人的“工作记忆”，只能记住你最近聊过的内容。

举例：

你说：“我叫小宋。”

接着问：“我刚刚说我叫什么？”

ai 能回答“小宋”。

"

但是上下文窗口他是有大小的。比如：

gpt-2的最大上下文窗口是2048tokens，大概是2k个token，相当于1～1.5页a4正常排版的文字内容；
gpt-3：上下文窗口为4096tokens，大概是4k个token，相当于可以容纳一整篇新闻特写/报告文章；
gpt-4：上下文128,000tokens，大概是128k个token，可以容纳一部中长篇小说的全部内容。例如，j.k.罗琳的《哈利·波特与魔法石》英文版约77k单词，完全能放入上下文中。

但是如果你聊太久，超过了它的“记忆上限”，旧的内容就会被遗忘（像人聊天聊久了忘了开头说了什么）。

2）长期记忆（long-term memory）

对应rag（检索增强生成）+ 知识库。这里就不展开讲了，对 rag 感兴趣的同学请看我上一篇哟～

就像人的“长期记忆”，能保存很久，不会轻易忘掉。

举个例子：

你上传一份金融公司的产品手册，让 ai 记住。

下周再来问：“我们的产品支持哪些功能？”

它可以从知识库里检索出来再回答你。

这就是通过知识库 + 向量数据库 + rag 技术实现的。

像人企业私有知识库问答、ai 助手可以记住你的长期偏好（比如你喜欢的写作风格）等，这就是长期记忆。

那咱们来总结一下：

短期记忆=临时记忆，靠上下文窗口，容量有限，容易遗忘。
长期记忆=持久记忆，靠知识库（rag）保存，随时可检索。

两者结合，就让 ai 更像一个“会思考、能记忆的人”。

3. 工具调用（tools）——ai的“手和脚”

如果把记忆（memory）看作大脑的“记忆能力”，规划（planning）看作大脑的“思维能力”，那么工具调用（tools）就是给 ai 装上的“外挂超能力”。

没有工具调用的 ai，就像一个只会在脑子里想的学生；

有了工具调用的 ai，就像一个带着计算器、搜索引擎、excel、画图软件的学霸，能动手解决更复杂的问题。

举个例子，你让一个设计员工去完成一个复杂的任务。他不仅要有一个聪明的大脑，去迸发灵感。还需要各种工具，比如说：photoshop、figma、sketch等设计工具。

ai agent也是一样，它的“手和脚”就是各种工具（tools）。

常见的工具包括：

搜索引擎：google、必应、百度（补充最新信息）负责上网查资料；
数据分析工具：pandas、excelapi（做计算、画图表）
知识库：企业内部文档、向量数据库（找资料更精准）
第三方应用：调用日历、邮箱、翻译api、支付系统等

有了这些工具，ai 不再只是“说一说”，而是真能“动手去做”。没有这些工具，再聪明的ai也只能“纸上谈兵”。

4. 可观测性（agentic observability）

可观测性就是让 ai agent 变得透明可控： agent不再是“黑箱”，而是一个可以随时体检、随时定位问题的系统。

1）为什么 ai agent 特别需要可观测性？

和普通软件不同，ai agent 的运行过程有很多“不可预测”的地方：

模型回答可能偏题
工具调用顺序不对
多个agent协作时，可能出现“踢皮球”的情况
成本（token/api调用）一下子飙升

如果没有可观测性，你根本不知道agent 为什么出错、哪里耗时、钱花在哪了，就很难定位问题。2）可观测性包含哪些维度？

日志（logs）

记录每一步操作，比如调用了哪个模型、传入了什么参数。
就像写日记，方便追溯问题。

指标（metrics）

统计运行情况，比如响应时间、成功率、token消耗。
就像体检时候的血压、心率，让你知道系统是不是健康。

追踪（tracing）

就像快递的物流跟踪，让你清楚看到包裹的每一站。
记录一次完整请求的“旅程”。

比如：用户提问 → 路由到 gpt-4 → 调用 google search → 整合答案。

3. 常见工具和框架

在 ai 领域，常见的可观测性平台有：

国外：

arize：专注模型监控，发现ai回答是否有偏差。
langsmith（langchain团队出品）：跟踪agent的调用链路，方便调试。
langfuse：开源方案，能监控llm调用和指标。
helicone/opik：帮助开发者记录和分析api调用，追踪成本与效果。

国内：

阿里云+中国信通院定义了llm应用在训练、推理等环节中，要哪些可观测性能力（比如日志、追踪、异常检测、性能监控、安全监控等）。帮助企业知道“应该做哪些监控”，构建可观测性体系。
openllmetry——开源的llm可观测性方案，为llm应用提供可观测性工具。可能包括采集指标、显示仪表板、告警等。
华为云modelarts支持模型的在线服务监控、负载监控、性能指标、资源占用、告警等。

5. 认证（authentication）

在 ai agent 的技术栈里，认证是非常基础但关键的一层。很多同学可能会有疑惑：agent 不就是回答问题嘛，为什么还要认证？

没有认证的 ai agent，就像一个办公楼没有门禁卡 — 谁都能进来，既不安全，也不可控。

1）为什么需要认证？保护用户身份

比如一个企业内部 agent，只有员工能用，外人不能随便调用。

保护数据安全

ai agent 往往要接触隐私数据（聊天记录、公司资料、数据库）。

没有认证，就可能被恶意调用，造成数据泄漏。

控制权限和范围

不同的人可以配置不同的功能权限。

比如：员工可以查考勤，管理员才能批量导出报表等

审计与追踪

谁访问了 agent、做了哪些操作，都能记录下来。

方便日后追溯问题。

2）常见的认证方式

在 ai agent 系统中，常见的认证方式有以下几种：

账号 + 密码

最传统的方式，适合个人小工具，但安全性一般。

oauth 2.0 /openid connect

比如用微信 / 钉钉 / github / google 登录第三方网站。

常见于企业级 agent 系统。

apikey（密钥）

调用 agent 接口时，必须带上一个“钥匙”。

就像去酒店开门，要插房卡。

多因素认证（mfa）

除了密码，还要短信验证码 / 邮件验证 / 动态口令。

常见于对安全要求极高的 agent 应用。

基于角色的访问控制（rbac）

比如后台交易系统中，我们会设置“普通用户”“管理员”“超级管理员”。

不同角色分配不同权限。

在aiagent 的技术栈里，认证保证了谁能用、能用到什么程度、做了什么操作变得可控了起来。

6. agent 协议（agent protocols）

定义了 agent 之间如何通信和协作的标准。解决不同 agent、不同模型之间的沟通问题，相当于“翻译官 + 调度员”。比如google提出的a2a（agent2agent开放协议）、tidal、slim、ibmacp等都是正在发展的相关协议。

7. 模型路由（model routing）

model routing (模型路由)：决定在特定任务下，应该使用哪个底层大模型。

很多小白第一次听到model routing（模型路由），都会一脸懵：听起来像是“模型走高速公路”吗？其实并不复杂，它就是在多个大模型之间，智能地帮你选最合适的那个。

比如，一个 agent 可以根据任务类型，自动选择调用deepseek、kimi、claude、gemini或openai等不同模型。

再举个通俗易懂的例子：

在你的公司里，有好几个员工，他们有不同的擅长点：

小张：逻辑清晰，擅长写代码。
小李：文笔很好，适合写文案。
小王：知识面广，擅长搜索和总结。

现在你接到一个任务：

如果是写文案→应该派给谁？派给小李
如果是写sql→应该派给小张
如果是查资料→应该派给小王

这背后“派单”的人，就是 modelrouter（模型路由器）。

通过我的例子，相信大家可以大致猜出模型路由的优势了。

优势 1：降低成本

简单问题（比如算个加减法），用便宜的小模型就够了。

复杂任务（比如写一篇长文），再调用 gpt-4、kimi、 gemini 这种大模型。

优势 2：提升效果不同模型有擅长的领域。比如 claude 擅长总结长文，gpt-4 擅长推理、gemini擅长多模态和全球生态整合等，路由器会“对症下药”。优势 3：智能分流

同时接入多个模型供应商（openai、anthropic、gemini、deepseek、kimi等），系统会根据任务类型自动分配，避免“只用一个模型”。

底层：硬件与基座——aiagent的“地基”

在最底层，是支撑一切运作的硬件（cpu/gpu）和基础设施（infra）。这就像一个公司的办公室和水电网。没有这些，再好的项目经理和工具也无法运作。

我们平时说的chatgpt、claude、deepseek这些大模型，其实只是这个地基上的一颗强大芯片，它提供“思考”的能力，但不是全部。

1. 基础大模型（foundation models）

在agent这座“超级智能城市”中，我们已经聊了它的“手脚”（工具）、“记忆”（数据库）和“交通网络”（基础设施）。现在，终于要讲到这座城市最核心、最神秘的部分——基础大模型（foundation models），它就是agent的“中央大脑”。

"

为什么说它只占10%？

尽管大模型是agent的“大脑”，但为什么说它只占整个agent成功的10%？

没有“手脚”的大脑是无用的。一个再聪明的人，如果不能使用工具、不能与外界交互，也无法解决实际问题。agent的大模型虽然能生成优秀的“思维链”，但没有“工具”层去执行，它就无法真正改变世界。
没有“记忆”的大脑是健忘的。大模型虽然强大，但它无法记住你和它的所有历史对话。agent之所以能保持长期连贯性，靠的是外部的“记忆”系统，而不是大模型本身。
基础大模型是agent的核心引擎，提供了最基础也最强大的“智能”。但它不是agent的全部。

一个优秀的 agent，就像一个优秀的团队：它需要一个聪明的“大脑”（基础大模型）来做决策，也需要有力的“手脚”（工具）来执行，更需要可靠的“记忆”（数据库）来提供支持，还需要强大的“基础设施”（硬件与基座）来保障稳定。