AI Agent 深度研究:从哲学构想到自主行动的七十年
如果要给 AI Agent 找一个起点,大多数人会说是 2023 年 3 月——AutoGPT 在 GitHub 上以 30 天破 10 万 Star 的速度横空出世,让”AI 自主做事”这个概念第一次真正进入大众视野。但这个起点其实是错的,或者说,太短视了。
AI Agent 的真正起点,是 1950 年一个英国数学家在论文里提出的一个思想实验。从那里到今天,这条线索绵延了七十多年,经历了三次大起大落,最终在大语言模型的催化下,迎来了它真正意义上的爆发。
这篇文章试图把这七十年的故事讲清楚——它怎么来的,中间经历了什么,今天站在哪里,以及接下来可能去向何方。
一、历史演进:七十年的漫长等待
1950-1980:哲学奠基,理性主义的黄金年代
1950 年,阿兰·图灵在《计算机器与智能》中提出了那个著名的”模仿游戏”:如果一台机器能在对话中让人无法分辨它是人还是机器,那它就可以被认为是智能的。这个思想实验今天看来像是 AI Agent 的最早蓝图——一个能感知输入、进行推理、产生输出的实体,在交互中展现智能行为。
图灵没有用”Agent”这个词,但他描述的东西,正是 Agent 的核心特质。
1956 年,达特茅斯会议正式宣告人工智能作为一个学科的诞生。那是一个充满乐观主义的年代,研究者们相信,只要把人类的推理规则编码进计算机,机器就能像人一样思考。这种信念催生了”符号主义 AI”——用逻辑规则和知识库来表示世界,用推理引擎来做决策。
1969 年,斯坦福研究院的 Shakey 机器人诞生,这是历史上第一个真正意义上的 AI Agent。Shakey 能感知环境(摄像头和传感器)、规划路径(STRIPS 规划算法)、执行动作(移动、推箱子)。它笨拙、缓慢,但它是完整的:感知-推理-行动的闭环第一次在物理世界中实现了。
这个时期的 AI 研究者们有一种近乎天真的自信。1965 年,赫伯特·西蒙预言”二十年内,机器将能完成人类能做的任何工作”。这个预言当然没有实现,但它代表了那个时代的精神气质:人们相信智能是可以被形式化、被编码的。
1980-1990:专家系统的繁荣与崩塌
1980 年代,AI 的重心从通用智能转向了专家系统。这是一种更务实的路线:与其追求通用智能,不如把某个特定领域的专家知识编码进系统,让它在这个领域表现得像专家一样。
MYCIN 是这个时代的代表作。它是斯坦福大学开发的医疗诊断系统,能根据症状推断细菌感染类型并推荐抗生素。在测试中,MYCIN 的诊断准确率甚至超过了部分人类医生。这个结果让整个行业为之振奋,大量资本涌入,专家系统公司如雨后春笋般涌现。
但专家系统有一个致命的弱点:它的知识是手工编码的。每一条规则都需要领域专家花时间整理、程序员花时间录入。这个过程极其昂贵,而且系统的知识边界非常清晰——一旦遇到规则库之外的情况,系统就会彻底失效。更糟糕的是,随着规则数量的增加,规则之间的冲突和矛盾越来越难以管理。
1987 年,AI 寒冬来临。专家系统的局限性暴露无遗,大量公司倒闭,研究经费被削减。这是 AI 历史上第二次寒冬(第一次在 1970 年代),也是 Agent 概念第一次遭遇重大挫折。
1990-2010:多智能体系统与强化学习的探索
寒冬之后,研究者们开始反思:也许问题不在于单个 Agent 不够聪明,而在于我们对智能的理解本身就是错的。
1990 年代,两个方向开始并行发展。
第一个方向是多智能体系统(Multi-Agent Systems, MAS)。研究者们发现,很多复杂的智能行为其实是从简单个体的交互中涌现出来的——就像蚂蚁群体能建造复杂的蚁穴,但单只蚂蚁的行为规则极其简单。这个洞察催生了一大批多智能体研究,探索 Agent 之间如何协作、竞争、谈判。
第二个方向是强化学习(Reinforcement Learning)。与其手工编码规则,不如让 Agent 通过与环境的交互来自己学习。1992 年,TD-Gammon 用强化学习学会了下西洋双陆棋,水平达到了世界顶级。这个结果令人震惊,因为没有人告诉它任何规则,它完全是通过自我对弈学会的。
但这个时期的 Agent 研究有一个共同的局限:它们都是领域特定的。下棋的 Agent 只会下棋,诊断疾病的 Agent 只会诊断疾病。通用智能依然遥不可及。
2004 年,DARPA 举办了第一届无人驾驶汽车挑战赛。没有一辆车完成了全程,最好的成绩是行驶了 11.78 公里后停下。但这次失败本身就是一个里程碑——它证明了 Agent 在真实物理世界中面临的挑战有多么巨大,也激励了整整一代研究者。
2010-2022:深度学习革命,感知能力的突破
2012 年,AlexNet 在 ImageNet 竞赛中以碾压性的优势获胜,深度学习时代正式开启。这对 Agent 研究的意义是革命性的:Agent 终于有了真正强大的感知能力。
在此之前,Agent 的感知能力一直是短板。符号主义 AI 需要手工设计特征,强化学习在高维输入(比如图像)面前举步维艰。深度学习解决了这个问题——神经网络可以直接从原始像素中学习有用的表示。
2015 年,DeepMind 的 DQN 用深度强化学习玩 Atari 游戏,在 49 个游戏中有 29 个超过了人类水平。2016 年,AlphaGo 击败李世石,成为人类历史上最具象征意义的 AI 里程碑之一。这些成就让整个世界意识到:AI 的能力边界正在被快速推进。
但这个时期的 Agent 依然是窄 AI——它们在特定任务上表现出色,但无法迁移到其他任务。AlphaGo 不会下象棋,DQN 的 Atari 玩家不会做任何其他事情。通用 Agent 的梦想依然遥远。
真正的转折点,是语言模型的崛起。
2017 年,Transformer 架构横空出世。2018 年,BERT 和 GPT-1 相继发布,预训练语言模型开始展现出惊人的通用性。2020 年,GPT-3 发布,1750 亿参数的规模让它在各种语言任务上都表现出色,甚至展现出了一些”涌现能力”——没有专门训练过的任务,它也能做得不错。
研究者们开始意识到:也许大语言模型,就是通用 Agent 的”大脑”。
2022-2023:ChatGPT 引爆,Agent 概念的第一次大众化
2022 年 11 月,ChatGPT 发布。这不是第一个大语言模型,甚至不是最强的,但它是第一个真正让普通人感受到 AI 能力的产品。ChatGPT 上线 5 天用户突破 100 万,2 个月突破 1 亿,成为历史上增长最快的消费级应用。
但 ChatGPT 本质上还是一个”问答机器”——你问它问题,它给你答案。它没有记忆,不能主动行动,不能调用外部工具。它是一个极其强大的语言处理器,但还不是一个 Agent。
真正让 Agent 概念爆炸的,是 2023 年 3 月的两个事件。
第一个是 OpenAI 发布 GPT-4,能力的大幅提升让研究者们开始认真思考:如果给 GPT-4 配上工具调用能力和记忆系统,它能做什么?
第二个是 AutoGPT 的诞生。2023 年 3 月,一个叫 Toran Bruce Richards 的开发者把 GPT-4 包装成了一个能自主规划和执行任务的 Agent,并把代码开源到 GitHub。他最初的动机很简单:他想要一个 AI 每天自动给他发送 AI 新闻摘要。
AutoGPT 的核心思路极其简单:给 LLM 一个目标,让它自己分解任务、调用工具(搜索、写文件、执行代码)、检查结果、再规划下一步。这个循环不断重复,直到目标完成。
这个想法并不新颖,但 GPT-4 的能力让它第一次真正可用。AutoGPT 在 GitHub 上以 30 天破 10 万 Star 的速度爆红,成为历史上增长最快的开源项目之一。与此同时,BabyAGI(2023 年 4 月)以更简洁的架构实现了类似的功能,同样引发了广泛关注。
这一年,学术界也在快速推进。2022 年底,Google 发布了 ReAct 论文,提出了”推理+行动”的交替框架——让 LLM 在行动之前先用自然语言推理,再决定调用什么工具。这个框架简单而有效,成为后来几乎所有 Agent 框架的基础。
Lilian Weng(OpenAI 研究员)在 2023 年发表的博客文章《LLM Powered Autonomous Agents》成为这个领域的奠基性文献,她将 Agent 定义为 LLM + 记忆(Memory)+ 任务规划(Planning)+ 工具使用(Tool Use)的集合,这个框架至今仍是理解 Agent 的最清晰方式。
2023-2024:框架爆发,从概念到工程
AutoGPT 的爆红证明了市场需求,但它本身并不好用——它经常陷入无限循环,幻觉严重,实际完成任务的成功率很低。这反而激励了大量开发者去构建更好的 Agent 框架。
2023 年,LangChain 迅速崛起,成为 Agent 开发的事实标准。它提供了一套完整的工具链:LLM 接入、工具调用、记忆管理、链式调用。LangChain 的成功在于它降低了 Agent 开发的门槛,让开发者不需要从零开始构建所有基础设施。
同年,微软发布了 AutoGen,把多 Agent 协作的概念推向了新的高度。AutoGen 的核心思路是让多个 Agent 通过对话来协作——一个”程序员 Agent”和一个”测试工程师 Agent”可以互相讨论代码问题,就像两个真实的同事一样。
2024 年 3 月,Cognition Labs 发布了 Devin,号称”世界上第一个 AI 软件工程师”。Devin 能够独立完成完整的软件开发任务:理解需求、搜索文档、编写代码、运行测试、修复 Bug。它在 SWE-bench 基准测试上的成绩(13.86%)远超此前所有系统,引发了整个软件行业的震动。
Devin 的意义不仅在于技术突破,更在于它第一次让人们认真思考:AI Agent 是否真的能替代人类完成复杂的知识工作?
2024 年 10 月,Anthropic 发布了 Claude 3.5 的 Computer Use 能力——让 AI 直接操控计算机界面,像人类一样点击、输入、截图。这是一个范式级的突破:Agent 不再需要专门的 API 接口,它可以直接操作任何有图形界面的软件。
2025:Agent 元年,从实验室走向产业
2025 年被业界广泛称为”AI Agent 元年”,这个称号并非夸张。
2025 年 1 月,OpenAI 发布 Operator,一个能在浏览器中自主完成任务的 Agent——订餐、购物、填表、预约,它都能独立完成。这是 OpenAI 第一次把 Agent 能力做成消费级产品。
2025 年 3 月,中国创业公司 Monica 发布了 Manus,定位”全球首款通用 AI 助手”。Manus 采用多 Agent 架构,能够完成从研究报告到代码开发的各类复杂任务。它在中国引发了巨大轰动,邀请码一码难求,成为 2025 年上半年最受关注的 AI 产品。
同月,OpenAI 发布了完整的 Agent 开发套件,包括 Agents SDK、内置工具(Web Search、Code Interpreter、File Search)和 Handoffs 机制(Agent 之间的任务移交)。这标志着 OpenAI 正式把 Agent 作为核心产品方向。
2025 年,Google 发布了 Agent Development Kit(ADK),将 Agent 开发工具链与 Gemini 模型和 Vertex AI 深度整合。MCP(Model Context Protocol,由 Anthropic 提出)和 A2A(Agent-to-Agent,由 Google 提出)两个协议开始成为行业标准,解决了 Agent 与工具、Agent 与 Agent 之间的互操作问题。
市场数据印证了这一趋势:2024 年全球 AI Agent 市场规模达 52.9 亿美元,预计 2030 年将增长至 471 亿美元,年复合增长率超过 40%。中国市场 2024 年规模达 1473 亿元,企业渗透率不足 5%,预计 2028 年突破 3.3 万亿元。
二、竞品对比:群雄并起的框架战争
AI Agent 的竞争格局,本质上是一场”谁来定义 Agent 开发范式”的战争。目前市场上的主要玩家可以分为三类:开发框架、低代码平台、以及端到端 Agent 产品。
LangChain / LangGraph:生态最完善的”瑞士军刀”
LangChain 是这个赛道当之无愧的先行者,也是目前生态最完善的框架。它的成功在于时机——2023 年初 ChatGPT 爆红之后,开发者们迫切需要一套工具来构建 LLM 应用,LangChain 恰好在这个时间点出现,并且做得足够好。
但 LangChain 也因为过于”全能”而饱受诟病。它的抽象层太多,学习曲线陡峭,调试困难,代码可读性差。很多开发者抱怨”LangChain 让简单的事情变复杂了”。
LangChain 团队意识到了这个问题,于是推出了 LangGraph——用图结构代替链式调用,让复杂的 Agent 工作流变得可视化和可控。LangGraph 的性能也更好,在 benchmark 测试中执行速度是 CrewAI 的 2.2 倍。
LangChain 的真正护城河是它的生态:几乎所有主流 LLM、向量数据库、工具都有官方集成,社区贡献的插件数以千计。这种生态优势很难被后来者复制。
适合谁:需要强流程控制、有复杂条件分支逻辑的场景;愿意投入时间学习的开发者。
AutoGen:微软的多智能体协作框架
AutoGen 是微软研究院的产品,它的核心理念是让多个 Agent 通过对话来协作。这个设计哲学非常直觉——人类团队就是通过对话来协作的,为什么 AI 不能这样?
AutoGen 的优势在于多 Agent 协作的自然性和企业级的可靠性。它的错误处理和日志系统非常完善,适合需要在生产环境中稳定运行的场景。微软的背书也让它在企业客户中有天然的信任优势。
但 AutoGen 的 token 消耗较高——对话模式本身就需要更多的上下文传递,每次 Agent 之间的交互都会产生额外的 token 开销。在大规模部署时,这个成本不可忽视。
2024 年,微软对 AutoGen 进行了重大重构,发布了 AutoGen 0.4,引入了更清晰的架构和更好的可扩展性。但这次重构也带来了 API 的不兼容,让一些早期用户感到困惑。
适合谁:需要多个 AI 角色协作的项目;已经在 Azure 生态中的企业。
CrewAI:最接地气的”团队模拟”框架
CrewAI 是这个赛道里最有趣的产品之一。它的设计理念是把 Agent 团队类比为真实的公司团队——每个 Agent 都有明确的”职位”(Role)、”目标”(Goal)和”背景故事”(Backstory),就像真实的员工一样。
这个设计让 CrewAI 的代码极其可读:你可以一眼看出这个系统里有哪些”角色”,每个角色负责什么。对于非技术背景的产品经理来说,这种抽象方式非常友好。
CrewAI 的学习曲线是所有主流框架中最低的,这让它在快速原型开发中非常受欢迎。据报道,Uber 有超过 21,000 名开发者在使用 CrewAI 构建内部工具,这个数字令人印象深刻。
但 CrewAI 的执行速度是主流框架中最慢的——比 LangGraph 慢 2.2 倍。这是因为它内置了”自主审议”机制,Agent 在调用工具前会先”思考”,这增加了延迟但提高了决策质量。在对延迟敏感的场景,这是一个明显的劣势。
适合谁:快速原型开发;需要模拟复杂业务流程的场景;团队中有非技术人员参与 Agent 设计。
Dify:低代码的 LLMOps 平台
Dify 是这个赛道里的异类——它不是一个代码框架,而是一个可视化的 AI 应用开发平台。你可以通过拖拽节点来构建复杂的 Agent 工作流,不需要写一行代码。
Dify 在 GitHub 上拥有超过 12 万颗星,是目前最受欢迎的 AI 应用开发平台之一。它的成功在于它解决了一个真实的痛点:很多企业想要构建 AI 应用,但没有足够的 AI 工程师。Dify 让产品经理、运营人员也能参与 AI 应用的构建。
Dify 的另一个优势是完整的 LLMOps 能力:知识库管理、对话日志、模型切换、A/B 测试,一应俱全。它在日本市场特别受欢迎,很多企业用它构建内部 AI 门户。
但 Dify 的灵活性不如代码框架。对于需要高度定制化逻辑的场景,可视化编辑器的表达能力是有限的。
适合谁:需要快速上线 AI 应用的企业;团队中有非技术人员参与;需要完整 LLMOps 能力的场景。
OpenAI Agents SDK / Google ADK:大厂的”亲儿子”框架
2025 年,OpenAI 和 Google 相继推出了自己的 Agent 开发框架,这是一个重要的信号:大模型厂商开始亲自下场定义 Agent 开发范式。
OpenAI Agents SDK(前身是 Swarm)的设计哲学是”轻量级”——它只提供最核心的抽象(Agent、Tool、Handoff),让开发者自己决定如何组合。这种极简主义让它非常灵活,但也意味着开发者需要自己处理很多细节。
Google ADK 则走了另一条路:深度整合 Gemini 模型和 Vertex AI,提供从开发到部署的完整工具链。对于已经在 Google Cloud 生态中的企业,ADK 是最自然的选择。
这两个框架的共同优势是:它们与各自的模型深度集成,能够利用模型的最新能力(比如 Function Calling、Structured Output)。但它们也有明显的局限:生态不如 LangChain 完善,社区相对较小。
端到端 Agent 产品:Manus、Devin、Operator
除了开发框架,还有一类玩家值得单独讨论:端到端的 Agent 产品。这些产品不是给开发者用的工具,而是直接面向最终用户的 AI 助手。
Devin 是这个方向的先驱。它定位”AI 软件工程师”,能够独立完成完整的软件开发任务。Devin 的技术路线是在一个沙箱环境中给 Agent 配备完整的开发工具链(代码编辑器、终端、浏览器),让它像真实的工程师一样工作。
Manus 的定位更广——”通用 AI 助手”。它采用多 Agent 架构,不同的子 Agent 负责不同类型的任务(研究、编程、写作),由一个协调 Agent 统一调度。Manus 在中国的爆红,很大程度上是因为它第一次让普通用户感受到了”AI 真的能帮我做事”。
OpenAI Operator 则专注于浏览器自动化——订餐、购物、填表、预约。它的技术路线是让 Agent 直接操控浏览器,像人类一样与网页交互。
这三个产品代表了 Agent 商业化的三个方向:垂直深度(Devin 的软件工程)、通用广度(Manus 的全能助手)、场景聚焦(Operator 的浏览器自动化)。
竞争格局总结
| 框架/产品 | 定位 | 核心优势 | 主要短板 | 适用场景 |
|---|---|---|---|---|
| LangChain/LangGraph | 开发框架 | 生态最完善,速度最快 | 学习曲线陡峭 | 复杂流程控制 |
| AutoGen | 多 Agent 框架 | 对话协作自然,企业级可靠 | Token 消耗高 | 多角色协作 |
| CrewAI | 团队模拟框架 | 学习曲线最低,可读性强 | 执行速度慢 | 快速原型 |
| Dify | 低代码平台 | 可视化,非技术友好 | 灵活性有限 | 企业快速落地 |
| OpenAI Agents SDK | 轻量框架 | 极简,与 GPT 深度集成 | 生态较小 | OpenAI 用户 |
| Google ADK | 企业框架 | Gemini 优化,云端部署 | 生态较小 | GCP 用户 |
| Devin | 端到端产品 | 软件工程能力强 | 价格高,场景窄 | 软件开发团队 |
| Manus | 端到端产品 | 通用性强,多 Agent 架构 | 稳定性待验证 | 通用任务 |
三、综合判断:我们在哪里,要去哪里
当下的真实处境
2025 年被称为”AI Agent 元年”,这个称号既准确又有些过于乐观。
准确的部分是:Agent 技术确实在这一年完成了从实验室到产品的跨越。Manus、Operator、Devin 这些产品的出现,让普通用户第一次真正感受到了”AI 能帮我做事”。框架生态的成熟(LangChain、AutoGen、CrewAI)让开发者能够相对容易地构建 Agent 应用。MCP 和 A2A 协议的出现,开始解决 Agent 生态碎片化的问题。
但过于乐观的部分是:大多数 Agent 应用在生产环境中的可靠性依然令人担忧。麦肯锡 2025 年的调研显示,虽然 88% 的企业在至少一个职能中使用了 AI,但真正完成规模化部署的只有约三分之一。中国市场的企业渗透率不足 5%。
Agent 面临的核心挑战是可靠性。一个 Agent 在演示中表现出色,但在生产环境中面对真实用户的各种边界情况时,往往会出现各种意想不到的问题:幻觉、无限循环、工具调用失败、上下文丢失。这些问题在单次对话中可以接受,但在需要长时间自主运行的 Agent 中,任何一个环节的失败都可能导致整个任务失败。
另一个挑战是成本。Agent 的每次任务执行都需要多次 LLM 调用,token 消耗是普通对话的数倍甚至数十倍。在当前的模型定价下,很多 Agent 应用的单次任务成本高得难以商业化。随着模型推理成本的持续下降,这个问题会逐渐缓解,但目前仍是制约 Agent 大规模落地的重要因素。
几个值得关注的趋势
从单 Agent 到多 Agent 协作。单个 Agent 的能力边界是有限的,而多个专业化 Agent 的协作可以完成更复杂的任务。这个趋势在 2025 年已经非常明显——Manus 的多 Agent 架构、AutoGen 的对话协作、CrewAI 的团队模拟,都是这个方向的体现。A2A 协议的出现,预示着未来不同厂商的 Agent 之间也能互相协作。
从工具调用到计算机使用。早期的 Agent 只能调用预定义的 API,但 Claude 的 Computer Use 和 OpenAI 的 Operator 展示了另一种可能:Agent 可以直接操控计算机界面,像人类一样使用任何软件。这个能力的意义是巨大的——它让 Agent 不再受限于是否有 API,任何有图形界面的软件都可以被 Agent 使用。
从通用到垂直。通用 Agent 的能力令人印象深刻,但在特定垂直领域深耕的 Agent 往往更实用。软件工程(Devin、GitHub Copilot Workspace)、法律研究、医疗诊断、金融分析——这些垂直领域的 Agent 因为有更清晰的任务边界和更专业的知识,往往比通用 Agent 更可靠。
MCP 协议的标准化。Anthropic 提出的 Model Context Protocol 正在成为 Agent 工具集成的事实标准。它解决了一个长期存在的问题:每个 Agent 框架都有自己的工具集成方式,导致工具无法在不同框架之间复用。MCP 的普及,将大大降低 Agent 生态的碎片化程度。
一个更长远的判断
回顾 AI Agent 七十年的历史,有一个规律反复出现:每一次技术突破都会带来一波乐观主义,然后现实的复杂性会让这波乐观主义降温,但技术本身会在这个过程中真正成熟。
符号主义 AI 的专家系统在 1980 年代经历了这个循环,深度学习在 2010 年代经历了这个循环,现在轮到了 LLM-based Agent。
2023 年 AutoGPT 爆红时,很多人相信 AI Agent 马上就能替代大量知识工作者。两年后,我们知道这个预测过于乐观了——Agent 确实能完成很多任务,但可靠性、成本、安全性等问题依然是巨大的挑战。
但这不意味着 Agent 的前景是悲观的。恰恰相反,这种”降温”是健康的——它让开发者和企业对 Agent 的能力边界有了更清醒的认识,从而能够在真正适合的场景中部署 Agent,而不是把它当成万能药。
从更长的时间维度看,AI Agent 代表的是一种根本性的范式转变:从”AI 作为工具”到”AI 作为协作者”。这个转变不会在一夜之间完成,但它的方向是确定的。
未来五年,最可能发生的不是 Agent 替代人类,而是人机协作模式的深刻重塑——人类负责目标设定、价值判断和创意决策,Agent 负责信息收集、任务执行和结果验证。这种分工,比任何一方单独工作都更高效。
七十年前,图灵问的是”机器能思考吗”。今天,我们已经不再争论这个问题,而是在问”机器能帮我做什么”。这个问题的答案,正在被每一个 Agent 框架、每一个 Agent 产品、每一次成功的任务执行所书写。
本报告基于公开信息整理,数据截止 2026 年 4 月。AI Agent 领域发展极快,部分信息可能已有更新,建议结合最新资料综合判断。