西瓜影视
  • 首页
  • 电影
    • 动作片
    • 爱情片
    • 科幻片
    • 恐怖片
    • 战争片
    • 喜剧片
    • 纪录片
    • 剧情片
  • 电视剧
    • 大陆剧
    • 港台剧
    • 欧美剧
    • 日韩剧
    • 泰剧
  • 综艺
  • 动漫
  • 留言
播放记录
对话杀人魔:山姆之子访谈录

对话杀人魔:山姆之子访谈录 豆瓣评分:0

已完结
  • 分类:纪录片
  • 导演:乔·伯灵格
  • 地区:美国
  • 年份:2025
  • 语言:英语
  • 更新:2026-01-15 10:24
报错 收藏
  • 对话杀人魔:山姆之子访谈录是由内详主演的一部纪录片。 ai agent的热度持续升温,但真正的成功并不在于“看得见”的功能,而是藏在底层的系统设计与业.. 更多

对话杀人魔:山姆之子访谈录剧情介绍

ai agent的热度持续升温,但真正的成功并不在于“看得见”的功能,而是藏在底层的系统设计与业务理解中。本文从“冰山模型”出发,拆解ai agent落地的关键要素,揭示那些被忽视却决定成败的90%隐性工程。

"

在聊 agent 之前,我想先带大家看看一位“圈内大佬”的看法。

他就是 openai 的 ceo,山姆·奥特曼(sam altman)。奥特曼曾分享过他对通用人工智能(agi)进化路径的洞察,将ai的发展分成了五个阶段。

如果把通往 agi 的道路比作一场升级打怪,目前我们发展到哪个阶段了呢?

  • l1阶段,chatbot像chatgpt3.5这样的“聊天机器人”。它能理解和生成文本,像一个聪明但缺乏行动力的大脑。
  • l2阶段,reasoner像deepseek、openai-o1一样具备“推理能力”(reasoner)的模型。它们能进行复杂的多步思考,也就是我们常说的“思维链”(chainofthought),让ai学会了“如何思考”。
  • l3阶段,agent便是我们今天的主角——“智能体”(agent)。在这个阶段,ai不仅能思考,还被赋予了“手和脚”,可以自主地与外部世界交互并完成任务。
  • l4阶段,innovator是“创新者”。ai能自主进行科学研究和产品创新,生成全新的知识。
  • l5阶段,organizations是“组织”。ai能够像一个公司一样,处理所有任务,一个ai就能完成整个公司的工作。

山姆·奥特曼在早期的访谈中,就曾分享过他对agi进化路径的洞察。当时这些展望还停留在理论,而如今,他的预言正在一步步变为现实。

没错,我们当前就处在l3,agent阶段。

agent是什么?

agent 是一种能够观察世界、调用工具并采取行动以实现特定目标的大模型应用;它不仅具备自主性,还能主动推理下一步策略。

网上有各种定义,我认为解释得最好的是anthropic: agent是让模型基于环境反馈去使用工具的一个程序。

说得更通俗易懂一些:像人一样执行任务。

"

像人一样执行任务,人类和ai的行为模式到底有哪些区别呢?

人类和ai的行为模式区别

"

第一个区别:交互方式

我们人类是“视觉动物”,人类的交互主要依赖视觉,因此为人类设计的产品需要一个前端界面,而 agent 则可以通过文本和多模态在后端实现交互。

第二,人需要“专注”,ai能“一心多用”

人类无法同时「做事情」和「学东西」,因为这两者涉及到大脑的不同区域。但 agent 却可以通过强化学习,在执行任务的同时进行学习。因此,为 agent 设计产品时,至关重要的是设计一套奖励机制。

举个例子,当你使用浏览器时,系统不会频繁弹出窗口来评价你的操作是否正确。但如果是为 agent 设计的浏览器,就需要时时提供 +1分,以便它在下次执行任务时表现得更好。

第三个区别是单线程 vs 多线程

有一个经典的对比:人的工作模式很像“贪婪算法”,总是关注眼前最有利的局部最优解,一步步完成任务。上一个任务的结束,就是下一个任务的开始,是一种单线程的逐一完成模式。

而 ai 的模式则很像「动态规划」,它能同时在多个节点上并行处理很多任务,始终追求全局最优解。

不过这也引发了一个问题:当 agent 并发执行任务时,该怎么保持不同任务的状态?

对于人类来说,上一个任务的结束就是下一个任务的开始,因此天然不需要去保持状态。

然而,agent 在一个节点上可能同时执行 100 个任务,这些任务的执行速度各异,有些快,有些慢,甚至有些可能需要人工干预,所以需要设计一种新的机制保证 agent 能高效稳定地在不同任务间切换和协调。

第四个区别:人的边界,ai的“安全围栏”

人可以为自己的行为负责,但如果一个ai agent出了问题,谁来承担责任?

比如你手里有一段代码,如果这段代码是你自己写的,你当然可以接受这段代码直接在你的电脑上运行,因为出了问题你可以负责。

但如果这段代码是 ai 生成的呢?如果运行之后,你的文件全丢了,谁来负责?

为了解决这个难题,ai agent执行任务时最基本的要求,就是要有一个“安全围栏”(sandbox,沙盒)。这个围栏就像一个虚拟的保护罩,将ai产生的影响控制在一个安全的范围内。

这个安全围栏并不是要一刀切地限制住 agent 的能力,而是要动态判断哪些任务和信息可以交由 agent 处理,而哪些不能。

ai agent 技术栈全景

虽然我们看到的大部分“智能”表现来自顶层的 ai 模型,但真正支撑 agent 运作、使其可靠和强大的,是水面下的庞大工程体系。

"

给大家举个通俗易懂的例子:将ai agent比作一辆车,大模型就是发动机,但是还需要方向盘,车轮子、油路、电控系统等。

从水面上的应用层到水面下的技术基座,我将逐一给大家讲个明白~

水平面顶层–ai agents 应用层

这是冰山顶端,也是咱们用户直接接触到的产品。

市场上比较火的agent产品有:manus、flowith、lovart、cursor、harvey等

"

现在,让我们一起“潜入”水下,看看一个aiagent到底是如何工作的。看看 ai agent为了能真正地给人类干活,到底付出了多少的努力。

中层:ai agent 核心能力与工程支撑

1. 规划——agent的“大脑管家”

没有规划的 ai,就像一个没做复习提纲的学生,回答问题可能思维跳来跳去、不够全面。 有了规划的 ai,才会更像一个靠谱的助手:懂目标、会拆解、能反思,还能自己改进。

规划的四大能力

1)目标拆解(subgoal decomposition)

把一个大任务拆解成可执行的小任务,类似于to do list。

把“策划发布会”分解成“找场地”、“做ppt”、“写宣传文案”等小任务。这个环节才是agent真正强大的地方,也是它能处理复杂问题的关键。

2)思维链(chain of thoughts)

一个聪明的项目经理,在分配任务之前,会先在脑子里把整个流程“想”一遍。ai agent也一样,它会先在“大脑”里跑一遍自己的思维链,这就是chain of thought(简称cot)

再给大家举个例子方便理解:比如,我让agent写一篇关于ai agent的文章时,它不会立刻动笔。它会先在内部进行一个“头脑风暴”:

第一步:需要上网搜集关于agent的最新论文;

第二步:分析这些论文,找出核心观点;

第三步:根据这些观点,生成文章大纲;

第四步:根据大纲填充内容……

这个一步步‘想’的过程,就是ai领域的“思维链”(chain of thought)。”

正是因为有了这个“思维链”,agent才能将一个复杂、模糊的任务,变成一个清晰、可执行的计划。它不仅能帮助agent完成任务,还能在任务失败时,让agent知道问题出在哪里,从而进行自我修正。

所以说,“思维链”是agent拥有强大“任务管理”和“自我纠错’能力的关键。它就像是agent的“内在独白”,让它从一个简单的执行者,进化成一个真正会思考的智能体。”

3)反思(reflection)

让 agent 在完成任务后,回顾自己做得到底对不对。

写完一段代码后,agent 会检查:

就像人写完文章后会“回头读一遍”一样,检查有没有逻辑错误,有没有错别字,标点符号是否正确等。

4)自我批评(self-critics)

让 agent给自己挑毛病,然后改进。

ai 写了一篇文案,自己会问:

然后再从表达上润色一遍。

自我批评,让 ai 从“只会输出”进化到“会自我迭代”。

这也是我为什么说规划是agent的“大脑管家”,因为它不仅帮你执行,还会提前计划、过程监督、事后复盘。

2. 记忆(memory)

记忆(memory)是什么?

在大模型里,记忆(memory)就像人的大脑记忆:它帮助模型不仅能“即时对话”,还可以“有前后文”、“能记住事情”。

如果没有记忆,模型每次回答问题都像失忆了一样:用户一旦关掉对话窗口,它就不记得之前发生的事。

有了记忆之后,ai 才能变得更像“一个真正的助手”——懂你、记得你、会总结你的习惯。

1)短期记忆(short-term memory)

对应上下文窗口(context windows)。

就像人的“工作记忆”,只能记住你最近聊过的内容。

举例:

你说:“我叫小宋。”

接着问:“我刚刚说我叫什么?”

ai 能回答“小宋”。

"

但是上下文窗口他是有大小的。比如:

  • gpt-2的最大上下文窗口是2048tokens,大概是2k个token,相当于1~1.5页a4正常排版的文字内容;
  • gpt-3:上下文窗口为4096tokens,大概是4k个token,相当于可以容纳一整篇新闻特写/报告文章;
  • gpt-4:上下文128,000tokens,大概是128k个token,可以容纳一部中长篇小说的全部内容。例如,j.k.罗琳的《哈利·波特与魔法石》英文版约77k单词,完全能放入上下文中。

但是如果你聊太久,超过了它的“记忆上限”,旧的内容就会被遗忘(像人聊天聊久了忘了开头说了什么)。

2)长期记忆(long-term memory)

对应rag(检索增强生成)+ 知识库。这里就不展开讲了,对 rag 感兴趣的同学请看我上一篇哟~

就像人的“长期记忆”,能保存很久,不会轻易忘掉。

举个例子:

你上传一份金融公司的产品手册,让 ai 记住。

下周再来问:“我们的产品支持哪些功能?”

它可以从知识库里检索出来再回答你。

这就是通过知识库 + 向量数据库 + rag 技术实现的。

像人企业私有知识库问答、ai 助手可以记住你的长期偏好(比如你喜欢的写作风格)等,这就是长期记忆。

那咱们来总结一下:

  • 短期记忆=临时记忆,靠上下文窗口,容量有限,容易遗忘。
  • 长期记忆=持久记忆,靠知识库(rag)保存,随时可检索。

两者结合,就让 ai 更像一个“会思考、能记忆的人”。

3. 工具调用(tools)——ai的“手和脚”

如果把记忆(memory)看作大脑的“记忆能力”,规划(planning)看作大脑的“思维能力”, 那么工具调用(tools)就是给 ai 装上的“外挂超能力”。

没有工具调用的 ai,就像一个只会在脑子里想的学生;

有了工具调用的 ai,就像一个带着计算器、搜索引擎、excel、画图软件的学霸,能动手解决更复杂的问题。

举个例子,你让一个设计员工去完成一个复杂的任务。他不仅要有一个聪明的大脑,去迸发灵感。还需要各种工具,比如说:photoshop、figma、sketch等设计工具。

ai agent也是一样,它的“手和脚”就是各种工具(tools)。

常见的工具包括:

  • 搜索引擎:google、必应、百度(补充最新信息)负责上网查资料;
  • 数据分析工具:pandas、excelapi(做计算、画图表)
  • 知识库:企业内部文档、向量数据库(找资料更精准)
  • 第三方应用:调用日历、邮箱、翻译api、支付系统等

有了这些工具,ai 不再只是“说一说”,而是真能“动手去做”。没有这些工具,再聪明的ai也只能“纸上谈兵”。

4. 可观测性(agentic observability)

可观测性就是让 ai agent 变得透明可控: agent不再是“黑箱”,而是一个可以随时体检、随时定位问题的系统。

1)为什么 ai agent 特别需要可观测性?

和普通软件不同,ai agent 的运行过程有很多“不可预测”的地方:

  • 模型回答可能偏题
  • 工具调用顺序不对
  • 多个agent协作时,可能出现“踢皮球”的情况
  • 成本(token/api调用)一下子飙升

如果没有可观测性,你根本不知道agent 为什么出错、哪里耗时、钱花在哪了,就很难定位问题。2)可观测性包含哪些维度?

日志(logs)

  • 记录每一步操作,比如调用了哪个模型、传入了什么参数。
  • 就像写日记,方便追溯问题。

指标(metrics)

  • 统计运行情况,比如响应时间、成功率、token消耗。
  • 就像体检时候的血压、心率,让你知道系统是不是健康。

追踪(tracing)

  • 就像快递的物流跟踪,让你清楚看到包裹的每一站。
  • 记录一次完整请求的“旅程”。

比如:用户提问 → 路由到 gpt-4 → 调用 google search → 整合答案。

3. 常见工具和框架

在 ai 领域,常见的可观测性平台有:

国外:

  • arize:专注模型监控,发现ai回答是否有偏差。
  • langsmith(langchain团队出品):跟踪agent的调用链路,方便调试。
  • langfuse:开源方案,能监控llm调用和指标。
  • helicone/opik:帮助开发者记录和分析api调用,追踪成本与效果。

国内:

  • 阿里云+中国信通院定义了llm应用在训练、推理等环节中,要哪些可观测性能力(比如日志、追踪、异常检测、性能监控、安全监控等)。帮助企业知道“应该做哪些监控”,构建可观测性体系。
  • openllmetry——开源的llm可观测性方案,为llm应用提供可观测性工具。可能包括采集指标、显示仪表板、告警等。
  • 华为云modelarts支持模型的在线服务监控、负载监控、性能指标、资源占用、告警等。

5. 认证(authentication)

在 ai agent 的技术栈里,认证是非常基础但关键的一层。 很多同学可能会有疑惑:agent 不就是回答问题嘛,为什么还要认证?

没有认证的 ai agent,就像一个办公楼没有门禁卡 — 谁都能进来,既不安全,也不可控。

1)为什么需要认证?保护用户身份

比如一个企业内部 agent,只有员工能用,外人不能随便调用。

保护数据安全

ai agent 往往要接触隐私数据(聊天记录、公司资料、数据库)。

没有认证,就可能被恶意调用,造成数据泄漏。

控制权限和范围

不同的人可以配置不同的功能权限。

比如:员工可以查考勤,管理员才能批量导出报表等

审计与追踪

谁访问了 agent、做了哪些操作,都能记录下来。

方便日后追溯问题。

2)常见的认证方式

在 ai agent 系统中,常见的认证方式有以下几种:

账号 + 密码

最传统的方式,适合个人小工具,但安全性一般。

oauth 2.0 /openid connect

比如用微信 / 钉钉 / github / google 登录第三方网站。

常见于企业级 agent 系统。

apikey(密钥)

调用 agent 接口时,必须带上一个“钥匙”。

就像去酒店开门,要插房卡。

多因素认证(mfa)

除了密码,还要短信验证码 / 邮件验证 / 动态口令。

常见于对安全要求极高的 agent 应用。

基于角色的访问控制(rbac)

比如后台交易系统中,我们会设置“普通用户”“管理员”“超级管理员”。

不同角色分配不同权限。

在aiagent 的技术栈里,认证保证了谁能用、能用到什么程度、做了什么操作变得可控了起来。

6. agent 协议(agent protocols)

定义了 agent 之间如何通信和协作的标准。解决不同 agent、不同模型之间的沟通问题,相当于“翻译官 + 调度员”。比如google提出的a2a(agent2agent开放协议)、tidal、slim、ibmacp等都是正在发展的相关协议。

7. 模型路由(model routing)

model routing (模型路由):决定在特定任务下,应该使用哪个底层大模型。

很多小白第一次听到model routing(模型路由),都会一脸懵: 听起来像是“模型走高速公路”吗? 其实并不复杂,它就是在多个大模型之间,智能地帮你选最合适的那个。

比如,一个 agent 可以根据任务类型,自动选择调用deepseek、kimi、claude、gemini或openai等不同模型。

再举个通俗易懂的例子:

在你的公司里,有好几个员工,他们有不同的擅长点:

  • 小张:逻辑清晰,擅长写代码。
  • 小李:文笔很好,适合写文案。
  • 小王:知识面广,擅长搜索和总结。

现在你接到一个任务:

  • 如果是写文案→应该派给谁?派给小李
  • 如果是写sql→应该派给小张
  • 如果是查资料→应该派给小王

这背后“派单”的人,就是 modelrouter(模型路由器)。

通过我的例子,相信大家可以大致猜出模型路由的优势了。

优势 1:降低成本

简单问题(比如算个加减法),用便宜的小模型就够了。

复杂任务(比如写一篇长文),再调用 gpt-4、kimi、 gemini 这种大模型。

优势 2:提升效果不同模型有擅长的领域。比如 claude 擅长总结长文,gpt-4 擅长推理、gemini擅长多模态和全球生态整合等,路由器会“对症下药”。优势 3:智能分流

同时接入多个模型供应商(openai、anthropic、gemini、deepseek、kimi等),系统会根据任务类型自动分配,避免“只用一个模型”。

底层:硬件与基座——aiagent的“地基”

在最底层,是支撑一切运作的硬件(cpu/gpu)和基础设施(infra)。这就像一个公司的办公室和水电网。没有这些,再好的项目经理和工具也无法运作。

我们平时说的chatgpt、claude、deepseek这些大模型,其实只是这个地基上的一颗强大芯片,它提供“思考”的能力,但不是全部。

1. 基础大模型(foundation models)

在agent这座“超级智能城市”中,我们已经聊了它的“手脚”(工具)、“记忆”(数据库)和“交通网络”(基础设施)。现在,终于要讲到这座城市最核心、最神秘的部分——基础大模型(foundation models),它就是agent的“中央大脑”。

"

为什么说它只占10%?

尽管大模型是agent的“大脑”,但为什么说它只占整个agent成功的10%?

  • 没有“手脚”的大脑是无用的。一个再聪明的人,如果不能使用工具、不能与外界交互,也无法解决实际问题。agent的大模型虽然能生成优秀的“思维链”,但没有“工具”层去执行,它就无法真正改变世界。
  • 没有“记忆”的大脑是健忘的。大模型虽然强大,但它无法记住你和它的所有历史对话。agent之所以能保持长期连贯性,靠的是外部的“记忆”系统,而不是大模型本身。
  • 基础大模型是agent的核心引擎,提供了最基础也最强大的“智能”。但它不是agent的全部。

一个优秀的 agent,就像一个优秀的团队:它需要一个聪明的“大脑”(基础大模型)来做决策,也需要有力的“手脚”(工具)来执行,更需要可靠的“记忆”(数据库)来提供支持,还需要强大的“基础设施”(硬件与基座)来保障稳定。

2. 数据处理(etl)

etl 是extract(提取)、transform(转换)、load(加载)三个英文单词的首字母缩写,它就像一个“原料工厂”,确保送到agent面前的都是高质量、可直接使用的信息。

数据处理是一个不起眼但至关重要的环节。它决定了agent所能获取的知识的质量和广度。

一个强大的agent,背后一定有一个高效的etl系统,能源源不断地为它输送高质量、结构化的“数字养料”。这正是软件工程在agent领域发挥巨大作用的又一个体现。

3. 数据库 (database)

agent 的“长期记忆”需要一个地方存储。向量数据库,如chroma和pinecone,就是专门为它建造的“图书馆”,能快速存取和检索海量的知识和信息,确保 agent 在需要时能迅速调取相关记忆。存储 agent 的长期记忆和相关数据。

4. 计算资源提供者(cpu/gpuprovider )

agent 的所有智能活动,从思考、规划、调用工具,到最终生成结果,都需要庞大的计算力。而这些计算力主要由gpu(图形处理器)和cpu(中央处理器)提供。

计算资源提供者是 agent 存在的物质基础。它们提供的强大算力,就像是为 agent 注入了生命力。没有它们,agent 的所有设想都只是空谈。

结尾:ai agent的终极意义

所以说,一个成功的ai agent,不只是一个聪明的大模型,而是一个由前端、记忆、工具、任务编排等一系列复杂系统共同组成的“超级工程”。

这也解释了为什么许多科技巨头都在抢占 ai agent 的赛道。因为这不再是简单的模型之战,而是系统集成、工程化能力和行业理解的综合较量。

未来

未来, 我认为一定是多智能体的形式( multi-agents)。为什么这么说呢?无论是google提出的a2a(agent2agent开放协议,还是红杉提出的 agent swarms (智能体集群)都在表达agent与agent之间的沟通是未来必然会发生的事情。

ai agent的未来在于垂直化和工程化,通过多agent的共同协作,它将渗透到我们工作和生活的方方面面。

ai agent将像水电煤一样,成为我们工作和生活的基础设施。而那些能把“冰山”水下部分做得又深又稳的公司,才是真正的赢家。

你觉得,未来哪一个领域的ai agent会率先改变我们的生活?在评论区聊聊你的看法吧!

以上,既然看到这里,如果觉得不错,随手点个赞、收藏吧。如果想第一时间收到推送,也可以给我个星标哟??~谢谢你的喜欢,我们,下次再见吧~

本文由 @march 原创发布于人人都是产品经理。未经作者许可,禁止转载

  • 播放列表
  • 暴风
  • 非凡线路
排序
  • 第01集
  • 第02集
  • 第03集
  • 排序
  • 第01集
  • 第02集
  • 第03集
  • 剧情介绍

    ai agent的热度持续升温,但真正的成功并不在于“看得见”的功能,而是藏在底层的系统设计与业务理解中。本文从“冰山模型”出发,拆解ai agent落地的关键要素,揭示那些被忽视却决定成败的90%隐性工程。

    "

    在聊 agent 之前,我想先带大家看看一位“圈内大佬”的看法。

    他就是 openai 的 ceo,山姆·奥特曼(sam altman)。奥特曼曾分享过他对通用人工智能(agi)进化路径的洞察,将ai的发展分成了五个阶段。

    如果把通往 agi 的道路比作一场升级打怪,目前我们发展到哪个阶段了呢?

    • l1阶段,chatbot像chatgpt3.5这样的“聊天机器人”。它能理解和生成文本,像一个聪明但缺乏行动力的大脑。
    • l2阶段,reasoner像deepseek、openai-o1一样具备“推理能力”(reasoner)的模型。它们能进行复杂的多步思考,也就是我们常说的“思维链”(chainofthought),让ai学会了“如何思考”。
    • l3阶段,agent便是我们今天的主角——“智能体”(agent)。在这个阶段,ai不仅能思考,还被赋予了“手和脚”,可以自主地与外部世界交互并完成任务。
    • l4阶段,innovator是“创新者”。ai能自主进行科学研究和产品创新,生成全新的知识。
    • l5阶段,organizations是“组织”。ai能够像一个公司一样,处理所有任务,一个ai就能完成整个公司的工作。

    山姆·奥特曼在早期的访谈中,就曾分享过他对agi进化路径的洞察。当时这些展望还停留在理论,而如今,他的预言正在一步步变为现实。

    没错,我们当前就处在l3,agent阶段。

    agent是什么?

    agent 是一种能够观察世界、调用工具并采取行动以实现特定目标的大模型应用;它不仅具备自主性,还能主动推理下一步策略。

    网上有各种定义,我认为解释得最好的是anthropic: agent是让模型基于环境反馈去使用工具的一个程序。

    说得更通俗易懂一些:像人一样执行任务。

    "

    像人一样执行任务,人类和ai的行为模式到底有哪些区别呢?

    人类和ai的行为模式区别

    "

    第一个区别:交互方式

    我们人类是“视觉动物”,人类的交互主要依赖视觉,因此为人类设计的产品需要一个前端界面,而 agent 则可以通过文本和多模态在后端实现交互。

    第二,人需要“专注”,ai能“一心多用”

    人类无法同时「做事情」和「学东西」,因为这两者涉及到大脑的不同区域。但 agent 却可以通过强化学习,在执行任务的同时进行学习。因此,为 agent 设计产品时,至关重要的是设计一套奖励机制。

    举个例子,当你使用浏览器时,系统不会频繁弹出窗口来评价你的操作是否正确。但如果是为 agent 设计的浏览器,就需要时时提供 +1分,以便它在下次执行任务时表现得更好。

    第三个区别是单线程 vs 多线程

    有一个经典的对比:人的工作模式很像“贪婪算法”,总是关注眼前最有利的局部最优解,一步步完成任务。上一个任务的结束,就是下一个任务的开始,是一种单线程的逐一完成模式。

    而 ai 的模式则很像「动态规划」,它能同时在多个节点上并行处理很多任务,始终追求全局最优解。

    不过这也引发了一个问题:当 agent 并发执行任务时,该怎么保持不同任务的状态?

    对于人类来说,上一个任务的结束就是下一个任务的开始,因此天然不需要去保持状态。

    然而,agent 在一个节点上可能同时执行 100 个任务,这些任务的执行速度各异,有些快,有些慢,甚至有些可能需要人工干预,所以需要设计一种新的机制保证 agent 能高效稳定地在不同任务间切换和协调。

    第四个区别:人的边界,ai的“安全围栏”

    人可以为自己的行为负责,但如果一个ai agent出了问题,谁来承担责任?

    比如你手里有一段代码,如果这段代码是你自己写的,你当然可以接受这段代码直接在你的电脑上运行,因为出了问题你可以负责。

    但如果这段代码是 ai 生成的呢?如果运行之后,你的文件全丢了,谁来负责?

    为了解决这个难题,ai agent执行任务时最基本的要求,就是要有一个“安全围栏”(sandbox,沙盒)。这个围栏就像一个虚拟的保护罩,将ai产生的影响控制在一个安全的范围内。

    这个安全围栏并不是要一刀切地限制住 agent 的能力,而是要动态判断哪些任务和信息可以交由 agent 处理,而哪些不能。

    ai agent 技术栈全景

    虽然我们看到的大部分“智能”表现来自顶层的 ai 模型,但真正支撑 agent 运作、使其可靠和强大的,是水面下的庞大工程体系。

    "

    给大家举个通俗易懂的例子:将ai agent比作一辆车,大模型就是发动机,但是还需要方向盘,车轮子、油路、电控系统等。

    从水面上的应用层到水面下的技术基座,我将逐一给大家讲个明白~

    水平面顶层–ai agents 应用层

    这是冰山顶端,也是咱们用户直接接触到的产品。

    市场上比较火的agent产品有:manus、flowith、lovart、cursor、harvey等

    "

    现在,让我们一起“潜入”水下,看看一个aiagent到底是如何工作的。看看 ai agent为了能真正地给人类干活,到底付出了多少的努力。

    中层:ai agent 核心能力与工程支撑

    1. 规划——agent的“大脑管家”

    没有规划的 ai,就像一个没做复习提纲的学生,回答问题可能思维跳来跳去、不够全面。 有了规划的 ai,才会更像一个靠谱的助手:懂目标、会拆解、能反思,还能自己改进。

    规划的四大能力

    1)目标拆解(subgoal decomposition)

    把一个大任务拆解成可执行的小任务,类似于to do list。

    把“策划发布会”分解成“找场地”、“做ppt”、“写宣传文案”等小任务。这个环节才是agent真正强大的地方,也是它能处理复杂问题的关键。

    2)思维链(chain of thoughts)

    一个聪明的项目经理,在分配任务之前,会先在脑子里把整个流程“想”一遍。ai agent也一样,它会先在“大脑”里跑一遍自己的思维链,这就是chain of thought(简称cot)

    再给大家举个例子方便理解:比如,我让agent写一篇关于ai agent的文章时,它不会立刻动笔。它会先在内部进行一个“头脑风暴”:

    第一步:需要上网搜集关于agent的最新论文;

    第二步:分析这些论文,找出核心观点;

    第三步:根据这些观点,生成文章大纲;

    第四步:根据大纲填充内容……

    这个一步步‘想’的过程,就是ai领域的“思维链”(chain of thought)。”

    正是因为有了这个“思维链”,agent才能将一个复杂、模糊的任务,变成一个清晰、可执行的计划。它不仅能帮助agent完成任务,还能在任务失败时,让agent知道问题出在哪里,从而进行自我修正。

    所以说,“思维链”是agent拥有强大“任务管理”和“自我纠错’能力的关键。它就像是agent的“内在独白”,让它从一个简单的执行者,进化成一个真正会思考的智能体。”

    3)反思(reflection)

    让 agent 在完成任务后,回顾自己做得到底对不对。

    写完一段代码后,agent 会检查:

    就像人写完文章后会“回头读一遍”一样,检查有没有逻辑错误,有没有错别字,标点符号是否正确等。

    4)自我批评(self-critics)

    让 agent给自己挑毛病,然后改进。

    ai 写了一篇文案,自己会问:

    然后再从表达上润色一遍。

    自我批评,让 ai 从“只会输出”进化到“会自我迭代”。

    这也是我为什么说规划是agent的“大脑管家”,因为它不仅帮你执行,还会提前计划、过程监督、事后复盘。

    2. 记忆(memory)

    记忆(memory)是什么?

    在大模型里,记忆(memory)就像人的大脑记忆:它帮助模型不仅能“即时对话”,还可以“有前后文”、“能记住事情”。

    如果没有记忆,模型每次回答问题都像失忆了一样:用户一旦关掉对话窗口,它就不记得之前发生的事。

    有了记忆之后,ai 才能变得更像“一个真正的助手”——懂你、记得你、会总结你的习惯。

    1)短期记忆(short-term memory)

    对应上下文窗口(context windows)。

    就像人的“工作记忆”,只能记住你最近聊过的内容。

    举例:

    你说:“我叫小宋。”

    接着问:“我刚刚说我叫什么?”

    ai 能回答“小宋”。

    "

    但是上下文窗口他是有大小的。比如:

    • gpt-2的最大上下文窗口是2048tokens,大概是2k个token,相当于1~1.5页a4正常排版的文字内容;
    • gpt-3:上下文窗口为4096tokens,大概是4k个token,相当于可以容纳一整篇新闻特写/报告文章;
    • gpt-4:上下文128,000tokens,大概是128k个token,可以容纳一部中长篇小说的全部内容。例如,j.k.罗琳的《哈利·波特与魔法石》英文版约77k单词,完全能放入上下文中。

    但是如果你聊太久,超过了它的“记忆上限”,旧的内容就会被遗忘(像人聊天聊久了忘了开头说了什么)。

    2)长期记忆(long-term memory)

    对应rag(检索增强生成)+ 知识库。这里就不展开讲了,对 rag 感兴趣的同学请看我上一篇哟~

    就像人的“长期记忆”,能保存很久,不会轻易忘掉。

    举个例子:

    你上传一份金融公司的产品手册,让 ai 记住。

    下周再来问:“我们的产品支持哪些功能?”

    它可以从知识库里检索出来再回答你。

    这就是通过知识库 + 向量数据库 + rag 技术实现的。

    像人企业私有知识库问答、ai 助手可以记住你的长期偏好(比如你喜欢的写作风格)等,这就是长期记忆。

    那咱们来总结一下:

    • 短期记忆=临时记忆,靠上下文窗口,容量有限,容易遗忘。
    • 长期记忆=持久记忆,靠知识库(rag)保存,随时可检索。

    两者结合,就让 ai 更像一个“会思考、能记忆的人”。

    3. 工具调用(tools)——ai的“手和脚”

    如果把记忆(memory)看作大脑的“记忆能力”,规划(planning)看作大脑的“思维能力”, 那么工具调用(tools)就是给 ai 装上的“外挂超能力”。

    没有工具调用的 ai,就像一个只会在脑子里想的学生;

    有了工具调用的 ai,就像一个带着计算器、搜索引擎、excel、画图软件的学霸,能动手解决更复杂的问题。

    举个例子,你让一个设计员工去完成一个复杂的任务。他不仅要有一个聪明的大脑,去迸发灵感。还需要各种工具,比如说:photoshop、figma、sketch等设计工具。

    ai agent也是一样,它的“手和脚”就是各种工具(tools)。

    常见的工具包括:

    • 搜索引擎:google、必应、百度(补充最新信息)负责上网查资料;
    • 数据分析工具:pandas、excelapi(做计算、画图表)
    • 知识库:企业内部文档、向量数据库(找资料更精准)
    • 第三方应用:调用日历、邮箱、翻译api、支付系统等

    有了这些工具,ai 不再只是“说一说”,而是真能“动手去做”。没有这些工具,再聪明的ai也只能“纸上谈兵”。

    4. 可观测性(agentic observability)

    可观测性就是让 ai agent 变得透明可控: agent不再是“黑箱”,而是一个可以随时体检、随时定位问题的系统。

    1)为什么 ai agent 特别需要可观测性?

    和普通软件不同,ai agent 的运行过程有很多“不可预测”的地方:

    • 模型回答可能偏题
    • 工具调用顺序不对
    • 多个agent协作时,可能出现“踢皮球”的情况
    • 成本(token/api调用)一下子飙升

    如果没有可观测性,你根本不知道agent 为什么出错、哪里耗时、钱花在哪了,就很难定位问题。2)可观测性包含哪些维度?

    日志(logs)

    • 记录每一步操作,比如调用了哪个模型、传入了什么参数。
    • 就像写日记,方便追溯问题。

    指标(metrics)

    • 统计运行情况,比如响应时间、成功率、token消耗。
    • 就像体检时候的血压、心率,让你知道系统是不是健康。

    追踪(tracing)

    • 就像快递的物流跟踪,让你清楚看到包裹的每一站。
    • 记录一次完整请求的“旅程”。

    比如:用户提问 → 路由到 gpt-4 → 调用 google search → 整合答案。

    3. 常见工具和框架

    在 ai 领域,常见的可观测性平台有:

    国外:

    • arize:专注模型监控,发现ai回答是否有偏差。
    • langsmith(langchain团队出品):跟踪agent的调用链路,方便调试。
    • langfuse:开源方案,能监控llm调用和指标。
    • helicone/opik:帮助开发者记录和分析api调用,追踪成本与效果。

    国内:

    • 阿里云+中国信通院定义了llm应用在训练、推理等环节中,要哪些可观测性能力(比如日志、追踪、异常检测、性能监控、安全监控等)。帮助企业知道“应该做哪些监控”,构建可观测性体系。
    • openllmetry——开源的llm可观测性方案,为llm应用提供可观测性工具。可能包括采集指标、显示仪表板、告警等。
    • 华为云modelarts支持模型的在线服务监控、负载监控、性能指标、资源占用、告警等。

    5. 认证(authentication)

    在 ai agent 的技术栈里,认证是非常基础但关键的一层。 很多同学可能会有疑惑:agent 不就是回答问题嘛,为什么还要认证?

    没有认证的 ai agent,就像一个办公楼没有门禁卡 — 谁都能进来,既不安全,也不可控。

    1)为什么需要认证?保护用户身份

    比如一个企业内部 agent,只有员工能用,外人不能随便调用。

    保护数据安全

    ai agent 往往要接触隐私数据(聊天记录、公司资料、数据库)。

    没有认证,就可能被恶意调用,造成数据泄漏。

    控制权限和范围

    不同的人可以配置不同的功能权限。

    比如:员工可以查考勤,管理员才能批量导出报表等

    审计与追踪

    谁访问了 agent、做了哪些操作,都能记录下来。

    方便日后追溯问题。

    2)常见的认证方式

    在 ai agent 系统中,常见的认证方式有以下几种:

    账号 + 密码

    最传统的方式,适合个人小工具,但安全性一般。

    oauth 2.0 /openid connect

    比如用微信 / 钉钉 / github / google 登录第三方网站。

    常见于企业级 agent 系统。

    apikey(密钥)

    调用 agent 接口时,必须带上一个“钥匙”。

    就像去酒店开门,要插房卡。

    多因素认证(mfa)

    除了密码,还要短信验证码 / 邮件验证 / 动态口令。

    常见于对安全要求极高的 agent 应用。

    基于角色的访问控制(rbac)

    比如后台交易系统中,我们会设置“普通用户”“管理员”“超级管理员”。

    不同角色分配不同权限。

    在aiagent 的技术栈里,认证保证了谁能用、能用到什么程度、做了什么操作变得可控了起来。

    6. agent 协议(agent protocols)

    定义了 agent 之间如何通信和协作的标准。解决不同 agent、不同模型之间的沟通问题,相当于“翻译官 + 调度员”。比如google提出的a2a(agent2agent开放协议)、tidal、slim、ibmacp等都是正在发展的相关协议。

    7. 模型路由(model routing)

    model routing (模型路由):决定在特定任务下,应该使用哪个底层大模型。

    很多小白第一次听到model routing(模型路由),都会一脸懵: 听起来像是“模型走高速公路”吗? 其实并不复杂,它就是在多个大模型之间,智能地帮你选最合适的那个。

    比如,一个 agent 可以根据任务类型,自动选择调用deepseek、kimi、claude、gemini或openai等不同模型。

    再举个通俗易懂的例子:

    在你的公司里,有好几个员工,他们有不同的擅长点:

    • 小张:逻辑清晰,擅长写代码。
    • 小李:文笔很好,适合写文案。
    • 小王:知识面广,擅长搜索和总结。

    现在你接到一个任务:

    • 如果是写文案→应该派给谁?派给小李
    • 如果是写sql→应该派给小张
    • 如果是查资料→应该派给小王

    这背后“派单”的人,就是 modelrouter(模型路由器)。

    通过我的例子,相信大家可以大致猜出模型路由的优势了。

    优势 1:降低成本

    简单问题(比如算个加减法),用便宜的小模型就够了。

    复杂任务(比如写一篇长文),再调用 gpt-4、kimi、 gemini 这种大模型。

    优势 2:提升效果不同模型有擅长的领域。比如 claude 擅长总结长文,gpt-4 擅长推理、gemini擅长多模态和全球生态整合等,路由器会“对症下药”。优势 3:智能分流

    同时接入多个模型供应商(openai、anthropic、gemini、deepseek、kimi等),系统会根据任务类型自动分配,避免“只用一个模型”。

    底层:硬件与基座——aiagent的“地基”

    在最底层,是支撑一切运作的硬件(cpu/gpu)和基础设施(infra)。这就像一个公司的办公室和水电网。没有这些,再好的项目经理和工具也无法运作。

    我们平时说的chatgpt、claude、deepseek这些大模型,其实只是这个地基上的一颗强大芯片,它提供“思考”的能力,但不是全部。

    1. 基础大模型(foundation models)

    在agent这座“超级智能城市”中,我们已经聊了它的“手脚”(工具)、“记忆”(数据库)和“交通网络”(基础设施)。现在,终于要讲到这座城市最核心、最神秘的部分——基础大模型(foundation models),它就是agent的“中央大脑”。

    "

    为什么说它只占10%?

    尽管大模型是agent的“大脑”,但为什么说它只占整个agent成功的10%?

    • 没有“手脚”的大脑是无用的。一个再聪明的人,如果不能使用工具、不能与外界交互,也无法解决实际问题。agent的大模型虽然能生成优秀的“思维链”,但没有“工具”层去执行,它就无法真正改变世界。
    • 没有“记忆”的大脑是健忘的。大模型虽然强大,但它无法记住你和它的所有历史对话。agent之所以能保持长期连贯性,靠的是外部的“记忆”系统,而不是大模型本身。
    • 基础大模型是agent的核心引擎,提供了最基础也最强大的“智能”。但它不是agent的全部。

    一个优秀的 agent,就像一个优秀的团队:它需要一个聪明的“大脑”(基础大模型)来做决策,也需要有力的“手脚”(工具)来执行,更需要可靠的“记忆”(数据库)来提供支持,还需要强大的“基础设施”(硬件与基座)来保障稳定。

    2. 数据处理(etl)

    etl 是extract(提取)、transform(转换)、load(加载)三个英文单词的首字母缩写,它就像一个“原料工厂”,确保送到agent面前的都是高质量、可直接使用的信息。

    数据处理是一个不起眼但至关重要的环节。它决定了agent所能获取的知识的质量和广度。

    一个强大的agent,背后一定有一个高效的etl系统,能源源不断地为它输送高质量、结构化的“数字养料”。这正是软件工程在agent领域发挥巨大作用的又一个体现。

    3. 数据库 (database)

    agent 的“长期记忆”需要一个地方存储。向量数据库,如chroma和pinecone,就是专门为它建造的“图书馆”,能快速存取和检索海量的知识和信息,确保 agent 在需要时能迅速调取相关记忆。存储 agent 的长期记忆和相关数据。

    4. 计算资源提供者(cpu/gpuprovider )

    agent 的所有智能活动,从思考、规划、调用工具,到最终生成结果,都需要庞大的计算力。而这些计算力主要由gpu(图形处理器)和cpu(中央处理器)提供。

    计算资源提供者是 agent 存在的物质基础。它们提供的强大算力,就像是为 agent 注入了生命力。没有它们,agent 的所有设想都只是空谈。

    结尾:ai agent的终极意义

    所以说,一个成功的ai agent,不只是一个聪明的大模型,而是一个由前端、记忆、工具、任务编排等一系列复杂系统共同组成的“超级工程”。

    这也解释了为什么许多科技巨头都在抢占 ai agent 的赛道。因为这不再是简单的模型之战,而是系统集成、工程化能力和行业理解的综合较量。

    未来

    未来, 我认为一定是多智能体的形式( multi-agents)。为什么这么说呢?无论是google提出的a2a(agent2agent开放协议,还是红杉提出的 agent swarms (智能体集群)都在表达agent与agent之间的沟通是未来必然会发生的事情。

    ai agent的未来在于垂直化和工程化,通过多agent的共同协作,它将渗透到我们工作和生活的方方面面。

    ai agent将像水电煤一样,成为我们工作和生活的基础设施。而那些能把“冰山”水下部分做得又深又稳的公司,才是真正的赢家。

    你觉得,未来哪一个领域的ai agent会率先改变我们的生活?在评论区聊聊你的看法吧!

    以上,既然看到这里,如果觉得不错,随手点个赞、收藏吧。如果想第一时间收到推送,也可以给我个星标哟??~谢谢你的喜欢,我们,下次再见吧~

    本文由 @march 原创发布于人人都是产品经理。未经作者许可,禁止转载

    猜你喜欢
    苏茉儿传奇 0分 2018
    苏茉儿传奇
    内详
    经典传奇 8.9分 2010
    经典传奇
    内详
    盛世妆娘 0分 2018
    盛世妆娘
    内详
    贴身女保镖 0分 2018
    贴身女保镖
    内详
    德云社靳鹤岚朱鹤松相声专场南京站 0分 2025
    德云社靳鹤岚朱鹤松相声专场南京站
    内详
    熊出没之探险日记2 0分 2019
    熊出没之探险日记2
    内详
    极端邪恶 6.6分 2019
    极端邪恶
    莉莉·柯林斯,扎克·埃夫隆,卡雅·斯考达里奥,约翰·马尔科维奇,吉姆·帕森斯,安吉拉·萨拉弗安,海利·乔·奥斯蒙,格蕾丝·维多利亚·考克斯,特里·金尼,迪
    犯罪现场:赛西尔酒店失踪事件 0分 2021
    犯罪现场:赛西尔酒店失踪事件
    蒂姆·玛西娅,艾米·普莱斯,格雷格·卡丁,乔希·迪安,约翰·洛丹,约翰·索哈尼,金·库柏,圣地亚哥·洛佩兹,道格·蒙金,肯尼斯·吉文斯,维维卡·周,阿尔忒弥
    对话杀人魔:杰夫瑞·达莫访谈录 0分 2022
    对话杀人魔:杰夫瑞·达莫访谈录
    杰夫瑞·达莫,帕克·迪茨,温迪·帕特里克,安妮·E·施瓦茨,肯尼斯·斯迈尔,迈克尔·罗斯,杰拉尔德·P·博伊尔,E·迈克尔·麦肯,丹尼斯·墨菲,肯尼斯·穆勒,杰
    对话杀人魔:山姆之子访谈录 0分 2025
    对话杀人魔:山姆之子访谈录
    内详
    对话杀人魔:泰德·邦迪访谈录 7.5分 2019
    对话杀人魔:泰德·邦迪访谈录
    泰德·邦迪,斯蒂芬·G·米乔德,鲍勃·大卫·开普,凯瑟琳·麦克切斯尼,沃德·卢卡斯,休·艾尼斯沃斯,马林·李·沃特曼,布鲁斯·卢贝克,卡罗尔·达隆克,查尔斯
    影片评论
    评论加载中...
    纪录片热播排行
    1狂野非洲 HD中字
    2地球生灵 HD
    3圆明园 全3集
    4荒野求生第七季 已完结
    5原始生活40天第二季 已完结
    6转折点:越南战争 全5集
    7监狱中的女孩 更新至中
    8手术两百年 全8集
    9荒野求生第一季 已完结
    10尘封核爆 HD
    11水果传第一季 已完结
    12泰坦尼克号:数字复活 HD
    13这就是中国 更新至20250315期
    14藤子海敏的时间 HD中字
    15荒野独居第四季 已完结

    Copyright © 2015-2020 All Rights Reserved

    • 首页
    • 会员
    • 留言
    • 顶部
    还珠格格第二部   神断狄仁杰   败犬   最棒的欧巴桑 中..   谍战深海之惊蛰   沙海番外之画媒   在屋顶上流浪   嗨翻姐妹行   欢乐颂2   兽兵卫忍风帖   九尾狐与仙鹤   追捕者  
    加载中...