GPT-5.5 深度研究：代号土豆，OpenAI 的 Agent 时代宣言

发表于 2026/04/24

作者 latte

29 分钟阅读

2026 年 4 月 23 日深夜，OpenAI 悄然推送了一条公告，没有盛大发布会，没有提前预热的倒计时，只是一篇博客文章和一个新的模型 ID：gpt-5.5。但这次发布在开发者社区引发的震动，远比任何一场精心策划的发布会都要持久。

这篇文章试图回答一个问题：GPT-5.5 到底是什么，它从哪里来，它在当下的竞争格局里处于什么位置，以及它意味着什么。

一、发展历程：从 GPT-1 到”土豆”的八年

起点：一个不起眼的预训练实验

2018 年，OpenAI 发布了 GPT-1，一个只有 1.17 亿参数的语言模型。那时候，大多数 NLP 研究者还在用 LSTM 和 BERT，Transformer 架构刚刚被提出一年，没有人知道这条路能走多远。GPT-1 的核心思想很简单：用大量无标注文本做预训练，然后在下游任务上微调。这个想法在当时并不算革命性，但它埋下了一颗种子。

GPT-2 在 2019 年出现时，OpenAI 做了一件在当时颇具争议的事：以”太危险”为由，拒绝完整开源。这个决定现在看来更像是一次精心设计的营销，但它确实让 GPT-2 成为了第一个真正进入公众视野的语言模型。GPT-2 能写出连贯的段落，能续写故事，能模仿不同风格——这些能力在 2019 年足以让人感到震惊。

2020 年的 GPT-3 是一次真正的跃迁。1750 亿参数，在当时是无法想象的规模。更重要的是，GPT-3 展示了一种新的能力：few-shot learning，也就是只需要在 prompt 里给几个例子，模型就能完成从未见过的任务。这打开了一扇门——语言模型不再只是文本生成工具，它开始变成一个通用的任务执行器。

GPT-3 的 API 在 2020 年开放后，催生了第一波 AI 应用创业潮。Jasper、Copy.ai、GitHub Copilot 的前身——这些产品都建立在 GPT-3 的肩膀上。OpenAI 第一次意识到，模型本身可以是一门生意。

ChatGPT 时刻：从研究工具到大众产品

2022 年 11 月，ChatGPT 上线。这是 OpenAI 历史上最重要的一个节点，没有之一。

ChatGPT 的底层是 GPT-3.5，但真正让它爆炸的是 RLHF（基于人类反馈的强化学习）。这个技术让模型学会了如何”讨人喜欢”——更安全、更有帮助、更符合人类的对话习惯。上线五天，用户数突破百万；两个月，月活超过一亿。这个速度在互联网历史上前所未有。

ChatGPT 的成功让整个科技行业陷入恐慌。谷歌宣布”红色警报”，微软宣布向 OpenAI 追加投资，百度、阿里、字节跳动纷纷宣布自己的大模型计划。一场全球性的 AI 军备竞赛就此开始。

2023 年 3 月，GPT-4 发布。多模态能力（能看图）、更强的推理、更低的幻觉率——GPT-4 在几乎所有维度上都超越了 GPT-3.5。更重要的是，GPT-4 通过了美国律师资格考试、医学执照考试，这些成绩让”AI 会取代专业人士”的讨论从科幻变成了现实议题。

o 系列的插曲：推理能力的独立进化

2024 年，OpenAI 做了一个有趣的决定：把”推理”能力单独拆出来，做成一个独立的模型系列——o1、o2、o3。

这个决定背后有一个深刻的洞察：语言模型的”聪明”和”会推理”是两件不同的事。GPT-4 很聪明，但它在解数学题、写复杂代码时，经常会犯一些低级错误——因为它是在”预测下一个 token”，而不是在”思考”。o 系列通过让模型在回答前先进行内部推理（chain-of-thought），显著提升了在数学、编程、逻辑推理上的表现。

o1 在 2024 年底发布时，在 AIME（美国数学邀请赛）上拿到了接近满分的成绩，这在 GPT-4 时代是不可想象的。但 o 系列有一个明显的代价：慢。有时候一个问题要思考几十秒甚至几分钟，这在实际使用中是很大的摩擦。

GPT-5 的诞生：统一架构的第一次尝试

2025 年 8 月，GPT-5 正式发布。这是 OpenAI 历史上最重要的架构决策之一：把 GPT 系列的生成能力和 o 系列的推理能力合并到一个模型里。

GPT-5 采用了”统一系统架构”，内置了实时路由系统——模型会自动判断当前问题需要快速回答还是深度推理，然后动态分配计算资源。这解决了 o 系列”太慢”的问题，同时保留了推理能力。

Sam Altman 在发布时把 GPT-5 比作苹果的初代 iPhone——不是因为它完美，而是因为它标志着一个新时代的开始。”如果说 GPT-4 相当于大学生水平，那么 GPT-5 就是真正的专家。”这句话有点夸张，但方向是对的。

GPT-5 发布后，OpenAI 进入了一个前所未有的快速迭代期。在接下来的八个月里，他们以大约六周一个版本的节奏，连续推出了 GPT-5.1、5.2、5.3、5.4——每一个版本都是在同一个基础模型上做后训练迭代，调整指令遵循、安全性、特定任务表现。这种迭代速度在大模型领域是罕见的，背后是 OpenAI 在推理基础设施上的巨大投入。

GPT-5.1 在 2025 年 11 月发布，主要改进是对话自然度和指令遵循；5.2 在 12 月，重点是多语言能力；5.3 在 2026 年 2 月，强化了工具调用；5.4 在 3 月，是 Agent 能力的第一次系统性提升。每一次迭代都在同一个底模上做，就像在同一块面团上反复揉捏——能改善很多细节，但无法改变面团本身的质地。

GPT-5.5：第一次真正的重新开始

这就是为什么 GPT-5.5 的发布如此重要。

代号”Spud”（土豆）——这个朴素的内部代号背后，是 OpenAI 自 GPT-4.5 以来第一次完整重新预训练的基础模型。架构变了，预训练语料变了，训练目标变了。

预训练于 2026 年 3 月 24 日完成，训练集群是 NVIDIA GB200 NVL72 的 10 万卡规模——这是 OpenAI 与英伟达深度协同的产物，也是目前已知最大规模的单次模型训练之一。

但比规模更重要的，是训练目标的根本性转变。

GPT-5.5 的官方定位是”面向真实工作的全新智能层级”，但这句话背后有一个更精确的技术表述：这是 OpenAI 第一个从预训练阶段就以 Agent 为核心目标设计的基础模型。

过去的 GPT 系列，包括 5.1 到 5.4，本质上都是”对话大模型 + 工具能力”——先训练一个强大的语言模型，然后通过后训练赋予它调用工具的能力。GPT-5.5 颠倒了这个优先级：它是”Agent 基座 + 对话能力”，训练目标从一开始就是让模型学会规划、执行、自检、持续推进，直到任务完成。

Sam Altman 在发布会上说了一句意味深长的话：”To a significant degree, we have to become an AI inference company now.”（在相当程度上，我们现在必须成为一家 AI 推理公司。）这句话不只是在说技术，更是在宣告商业模式的转型——从卖模型授权，到卖推理服务，到最终卖”结果”。

发布前的预兆

有意思的是，GPT-5.5 在正式发布前两天，就已经被眼尖的开发者发现了。2026 年 4 月 22 日，有人在 Codex CLI 的终端界面里看到了 gpt-5.5 的模型 ID——OpenAI 在正式公告前，已经悄悄把它部署到了 Codex 的生产环境。

这个细节很能说明 OpenAI 当下的节奏：不再等待完美，先部署，再公告。这种”先上车后补票”的风格，在 GPT-5.5 的整个发布过程中都有体现——API 在发布时还没有正式开放，官方说”very soon”，但 ChatGPT 和 Codex 的付费用户已经可以用了。

二、竞品对比：一场没有绝对赢家的旗舰对决

GPT-5.5 发布时，它面对的竞争格局比任何一个前代版本都要复杂。Anthropic 的 Claude Opus 4.7 在八天前刚刚发布，谷歌的 Gemini 3.1 Pro 也在同期推出。这三家的旗舰模型，在 2026 年 4 月形成了一个罕见的三强鼎立局面。

Claude Opus 4.7：精准手术刀

Anthropic 在 2026 年 4 月 16 日发布 Claude Opus 4.7，距离 GPT-5.5 发布只有八天。这个时间差不是巧合——Anthropic 显然知道 OpenAI 的发布计划，选择了抢先一步。

Opus 4.7 的核心设计理念是”自我验证工程师”。模型在交付任何结果前，会主动编写测试用例、完成健全性检查，在面对模糊问题时，会先完成系统代码的完整错误校验再启动工作。这种设计让它在代码修复类任务上表现出色——SWE-Bench Pro 上 64.3% 的成绩，比 GPT-5.5 的 58.6% 高出近 6 个百分点。

但 Opus 4.7 也有它的代价。Anthropic 首席专家 Boris Cherny 公开分享的最佳实践里提到，Opus 4.7”更忠于字面解释”，这意味着此前适配旧版本的复杂工作流提示词，大多需要重新编写。更隐蔽的是，新版分词器的调整让相同内容的 token 消耗达到旧版的 1.0-1.35 倍，在技术文档和代码文件场景中，实际账单最高可能上涨 35%——官方定价没变，但用户实际付出的钱变多了。

在写作偏好上，Opus 4.7 仍然保持优势。Artificial Analysis 的盲测显示，用户在写作任务上更偏好 Opus 4.7（47% vs GPT-5.5 的 29%）。它的语言更自然，更有”人味”，在前端设计和视觉审美上也明显强于 GPT-5.5。

Anthropic 还有一张底牌没有打出来：代号 Mythos 的下一代模型，在内部测试中 Terminal-Bench 2.0 得分 92.1%，SWE-Bench Verified 高达 93.9%，全面超越 GPT-5.5 和 Opus 4.7。但出于安全考量，Mythos 目前只向头部合作企业开放，短期内不会改变公开市场的格局。

Gemini 3.1 Pro：谷歌的追赶者姿态

谷歌的 Gemini 3.1 Pro 在这场三强对决中处于相对弱势的位置。Terminal-Bench 2.0 上 68.5%，GDPval 上 67.3%，Intelligence Index 上与 Opus 4.7 并列 57——在大多数核心指标上，它都落后于 GPT-5.5 和 Opus 4.7。

但 Gemini 3.1 Pro 有一个不可忽视的优势：成本。按 Artificial Analysis 的测算，在相同 Intelligence Index 分数下，Gemini 3.1 Pro 的费用约为 900 美元，GPT-5.5 约为 1200 美元，Opus 4.7 约为 4800 美元。对于预算敏感的企业用户，Gemini 3.1 Pro 是一个值得认真考虑的选项。

谷歌的另一个优势是生态整合——Workspace、Cloud、Android 的深度集成，让 Gemini 在企业场景中有天然的分发渠道。但在纯模型能力的竞争上，谷歌目前仍然处于追赶位置。

DeepSeek V4：搅局者的出现

就在 GPT-5.5 发布的同一天，DeepSeek 发布了 V4——一个 1.6T 参数的开源 MoE 模型，Apache 2.0 协议，价格只有 GPT-5.5 的零头。

DeepSeek V4 的出现，让这场旗舰对决多了一个维度：开源 vs 闭源，极致性价比 vs 顶级能力。在很多通用任务上，DeepSeek V4 的表现已经接近 GPT-5.5，但在 Agent 能力、长上下文处理、工具调用稳定性上，仍然有明显差距。

对于中国市场，DeepSeek V4 的意义尤其重大——它提供了一条不依赖 OpenAI 和 Anthropic 的技术路径，而且是完全开源的。

核心能力对比：各有所长的分水岭

把这几个模型放在一起比，会发现一个清晰的规律：没有一个模型在所有维度上都是第一。

GPT-5.5 赢的是规划 + 执行类任务：Terminal-Bench 2.0（82.7%，领先 Opus 4.7 超过 13 个百分点）、OSWorld-Verified（78.7%）、GDPval（84.9%）、FrontierMath Tier 4（39.6%，远超 Opus 4.7 的 22.9%）。这些 benchmark 的共同特点是：需要模型自主规划、调用工具、持续执行，直到任务完成。

Opus 4.7 赢的是读懂代码库并修复类任务：SWE-Bench Pro（64.3% vs GPT-5.5 的 58.6%）、写作偏好（47% vs 29%）、MCP-Atlas 大规模工具调用（77.3% vs 75.3%）。这些任务需要对现有代码库有深刻理解，然后做出精准的、最小化的修改。

有一个数字值得单独拎出来：Artificial Analysis 的 AA-Omniscience benchmark 上，GPT-5.5 拿到了有记录以来最高的准确率 57%，但同时也拿到了最高的幻觉率 86%。作为对比，Opus 4.7 的幻觉率是 36%，Gemini 3.1 Pro 是 50%。

这不是矛盾。GPT-5.5 知道的时候答得更准，但不知道的时候更愿意”编”——而不是停下来说”我不确定”。对于会自己评估结果的 Agent 工作流，这是一个实打实的风险：一个自信的错误动作，比一次”我要再确认一下”代价大得多。

还有一个 GPT-5.5 明显落后的指标：多语言 Q&A（MMMLU），83.2%，比 Opus 4.7 的 91.5% 和 Gemini 3.1 Pro 的 92.6% 都落后一大截。对于中文场景，这个差距尤其值得注意。

定价：一场逆势涨价的信号

GPT-5.5 的定价是这次发布最具争议的部分。API 输入 $5/M tokens，输出 $30/M tokens，是 GPT-5.4 的整整两倍。GPT-5.5 Pro 更是 $30/$180，比 Opus 4.7 的输出价格还高出 20%。

在各家都在打价格战的 2026 年，OpenAI 选择逆势涨价，这是一个明确的市场信号：顶级推理能力不再低价竞争。

OpenAI 的理由是 token 效率：GPT-5.5 在完成相同任务时，消耗的 token 数量比 5.4 少约 40%，所以实际每次任务的费用只涨了约 20%。Artificial Analysis 的测算也印证了这一点：在相同 Intelligence Index 分数下，GPT-5.5（medium 模式）的费用约为 Opus 4.7（max 模式）的四分之一。

但这个逻辑有一个前提：你的任务是复杂的、长链条的。对于高并发、短 prompt 的场景，这 2× 的涨价是真金白银的成本增加，没有任何效率红利可以抵消。

三、综合判断：一个时代的终结，另一个时代的开始

GPT-5.5 真正的意义，不在 benchmark

看完所有数据，我想说一件可能让人意外的事：GPT-5.5 最重要的意义，不在于它在哪个 benchmark 上拿了第一。

它最重要的意义，在于它是 OpenAI 第一次在预训练阶段就把 Agent 作为核心目标的模型。这个决定的影响，会在未来几年里慢慢显现。

过去几年，AI 行业有一个隐含的假设：先做一个强大的语言模型，然后通过工具调用、提示工程、后训练，让它具备 Agent 能力。这个路径有效，但有天花板——你是在给一个为对话设计的模型，强行加上执行能力。

GPT-5.5 的训练目标颠倒了这个优先级。它从一开始就在学习”如何完成任务”，而不是”如何回答问题”。这个差别，就像是培养一个工程师和培养一个演讲者的区别——两者都需要语言能力，但核心目标完全不同。

长上下文召回率从 36.6% 跳到 74.0%，提升了 37 个百分点——这个数字在发布时被很多人忽略了，但它可能是这次发布里最有实际价值的改进。对于企业级应用（合同逐条分析、大型代码库审计、多轮研究综述），这不是锦上添花，而是从”勉强可用”到”真正可部署”的质变。

Sam Altman 的那句话

“To a significant degree, we have to become an AI inference company now.”

这句话值得反复咀嚼。它不只是在说技术路线，更是在宣告 OpenAI 的商业模式正在发生根本性转变。

过去，OpenAI 卖的是模型能力——你付钱，我给你一个更聪明的模型。未来，OpenAI 想卖的是结果——你告诉我你要什么，我帮你做完，你为结果付钱。36 氪的标题”从今天起，OpenAI 不卖 Token 了”，虽然有点夸张，但抓住了这个转变的本质。

这个转变对整个 AI 行业都有深远影响。如果 OpenAI 成功，它意味着 AI 公司的竞争维度会从”模型有多聪明”转向”任务完成率有多高”——这是一个完全不同的评价体系，也是一个更难被复制的护城河。

当下的局限与未来的风险

GPT-5.5 不是没有问题。

86% 的幻觉率是一个不能被忽视的数字。在 Agent 工作流里，一个自信的错误动作可能触发一连串错误的后续操作，最终造成难以挽回的损失。OpenAI 在这方面的取舍是明确的：为了更强的执行能力，接受更高的幻觉风险。这个取舍在某些场景下是合理的，但在合规、金融、医疗等对准确性零容忍的领域，这是一个实质性的障碍。

多语言能力的落后也是一个结构性问题。MMMLU 上 83.2% 的成绩，意味着 GPT-5.5 在非英语场景下的表现明显弱于竞品。对于中国市场，这个差距加上访问限制，让 GPT-5.5 的实际可用性大打折扣。

API 在发布时还没有正式开放，这对开发者来说是一个实际的障碍。OpenAI 说”very soon”，但这个时间窗口的不确定性，让很多企业在选型时不得不保持观望。

这场竞争的终局

2026 年 4 月的 AI 旗舰竞争，是一场没有终局的比赛。

Anthropic 的 Mythos 在内部测试中已经全面超越 GPT-5.5，随时可能公开发布。谷歌在 Gemini 上的投入没有减少，DeepSeek 在开源领域的进展让整个行业的成本曲线持续下移。OpenAI 自己也在以六周一个版本的节奏迭代，GPT-5.6 或者某个新的代号，可能已经在训练中了。

在这场竞争里，没有一家公司能长期保持绝对领先。真正的问题不是”谁是最强模型”，而是”谁能最快把模型能力转化为用户价值”。

GPT-5.5 给出了 OpenAI 的答案：不是更聪明的对话，而是更可靠的执行。这个方向对不对，要等时间来验证。但至少在 2026 年 4 月，它是目前最接近”真实工作搭子”形态的模型之一。

代号土豆，朴实无华，但扎根很深。

本报告基于 2026 年 4 月 24 日前的公开信息整理，主要来源包括 OpenAI 官方博客、Artificial Analysis、VentureBeat、ofox.ai、晨涧云等。部分数据来自第三方评测，可能存在方法论差异，建议结合自身场景验证。

深度研究

本文由作者按照 CC BY 4.0 进行授权