DeepSeek V4 深度研究：从量化基金的副产品到重塑全球 AI 格局的开源旗舰

发表于 2026/05/06

作者 latte

29 分钟阅读

一、发展历程：一个量化交易员的 AGI 豪赌

起点：不是 AI 公司，是一家量化基金

要理解 DeepSeek，必须先理解它的母体——幻方量化。

2008 年，全球金融危机爆发，一个还在浙大读研的广东小伙梁文锋做了一个在当时看来颇为疯狂的决定：用机器学习探索全自动量化交易。那时候中国金融市场上高频交易还是”无人区”，他靠着几台二手服务器和开源代码，硬是在这片荒地上开垦出了一条路。

2010 年是第一个转折点。股指期货和融资融券相继推出，量化投资迎来春天，梁文锋团队大赚一笔，自营资金超过 5 亿元。这桶金，为他后来的一切铺平了道路。

2015 年，幻方量化正式成立。这家公司后来被称为”中国最神秘的量化私募”——2019 年管理规模破百亿，2021 年突破千亿。但幻方的野心从来不止于此。他们自主研发了名为”萤火一号”的训练平台，配备 1100 块 GPU，成本仅为国际同类产品的三分之一。这个细节很重要：一家量化基金，在 AI 大模型浪潮到来之前，就已经在悄悄积累算力基础设施。

2023 年 4 月，幻方量化高调宣布进军大模型。三个月后，深度求索（DeepSeek）作为独立公司正式成立，梁文锋押注通用人工智能，目标直指”人类级别 AI”。

这个决定在外界看来有些突兀，但在梁文锋的逻辑里，这是一条自然延伸的路：量化交易的本质是用算法在海量数据中找规律，而 AGI 不过是这件事的终极形态。他招募人才的原则也透露出这种气质——”只招 1% 的天才，去做 99% 中国公司做不到的事情”。团队规模始终保持在 140 人左右，清一色来自清华、北大、北航的应届博士，没有海归，只用本土人才。

第一章：DeepSeek LLM 与 V1——低调入场，技术积累

2024 年 1 月，DeepSeek 发布了第一个开源版本 DeepSeek LLM，提供 7B 和 67B 两个规模。这个版本在架构上做了一些有意思的调整：用 GQA（分组查询注意力）优化推理成本，用多步学习率调度器替代余弦调度器，并采用自研的 HAI-LLM 训练框架。67B 版本在代码、数学、推理任务上超越了 LLaMA-2 70B，Chat 版本优于 GPT-3.5。

这个版本没有引起太大的市场反响。但它完成了一件重要的事：证明了这支团队有能力从零开始训练出有竞争力的大模型。

同期，DeepSeek 还发布了 DeepSeekMoE 和 DeepSeekMath 等专项模型，在数学推理和代码生成领域持续深耕。这些看似零散的探索，实际上是在为后来的架构革命积累弹药。

第二章：V2 引爆价格战——”AI 界的拼多多”

2024 年 5 月，DeepSeek 发布了真正让行业坐不住的产品：DeepSeek-V2。

这个模型的技术参数本身就已经足够惊人——236B 总参数，21B 激活，支持 128K 上下文，部署在 8 卡 H800 机器上，输入吞吐量超过每秒 10 万 tokens。但真正引爆市场的，是它的定价：每百万 token 输入 1 元、输出 2 元，约等于 Llama3 70B 的七分之一，GPT-4 Turbo 的七十分之一。

SemiAnalysis 给出了”性价比高到难以置信”的评价，并计算出 DeepSeek 在最高利用率下每台服务器每小时收益可达 35.4 美元，毛利率在 70% 以上。这意味着 DeepSeek 不是在烧钱补贴，而是真的通过架构创新把成本打下来了。

V2 的核心技术创新有两个：MLA（Multi-head Latent Attention，多头潜在注意力）和 DeepSeekMoE。MLA 通过低秩压缩大幅降低了 KV Cache 的显存占用，DeepSeekMoE 则通过更细粒度的专家划分提升了参数利用效率。这两项创新的组合，让 V2 在性能不输 GPT-4 Turbo 的同时，把推理成本压到了极致。

V2 发布后，字节、腾讯、百度、阿里等大厂按耐不住，纷纷降价。中国大模型价格战由此一触即发。DeepSeek 被冠以”AI 界的拼多多”之称，但这个绰号其实有些误导——拼多多靠的是补贴，DeepSeek 靠的是真实的技术效率优势。

第三章：V3 与 Coder V2——全面进化，悄然逼近顶点

2024 年 6 月，DeepSeek 发布了 DeepSeek-Coder-V2，一个专注于代码的 MoE 模型，在代码特定任务上的性能与 GPT-4 Turbo 相媲美，支持 338 种编程语言和 128K 上下文。这个版本是在 V2 的中间检查点基础上，通过额外 6 万亿 tokens 的持续预训练得到的。

2024 年 12 月 26 日，DeepSeek 发布了 V3。这是一次全面的升级：671B 总参数，37B 激活，在 14.8 万亿 tokens 上训练，训练成本约 557 万美元（使用 2048 块 H800 GPU，历时约 55 天）。V3 在多项基准测试上超越了 GPT-4o 和 Claude 3.5 Sonnet，同时保持了 DeepSeek 一贯的极致性价比。

梁文锋和罗福莉等人撰写的 53 页技术报告《DeepSeek-V3 Technical Report》随模型同步发布，详细披露了训练细节。这种透明度在行业内极为罕见——大多数公司会把训练细节视为核心机密。

第四章：R1 震惊世界——”AI 的斯普特尼克时刻”

2025 年 1 月 20 日，世界经济论坛 2025 年年会开幕当天，DeepSeek 发布了 R1。

这一天改变了很多人对 AI 发展路径的认知。

R1 的核心突破在于：它用纯强化学习的方法，让 AI 自发涌现出推理能力，无需大量监督微调数据。在数学、代码、自然语言推理等任务上，R1 的性能比肩 OpenAI 的 o1 正式版，但训练成本仅为 560 万美元，推理成本为 o1 的三十分之一。

市场的反应是戏剧性的。一周之内，DeepSeek 登顶中美两国苹果手机应用商店免费榜榜首，随后在约 140 个国家的应用下载排行榜上占据榜首。1 月 27 日，美国三大股指开盘暴跌，英伟达单日跌近 17%，市值蒸发约 6000 亿美元，创美股最高纪录。英伟达、亚马逊和微软三家科技巨头，在同一天宣布接入 DeepSeek-R1。

西方媒体将这一事件称为”人工智能的斯普特尼克时刻”——就像 1957 年苏联发射第一颗人造卫星震惊美国一样，R1 打破了”AI 领先必须靠堆算力”的固有认知，也打破了美国对 AI 话语权的垄断。

R1 之后，DeepSeek 进入了一段相对沉默的时期。网页端将近半年没有像样的更新，社交媒体上的质疑声越来越多。但水面之下，团队在密集发表学术论文——近十篇重量级论文，其中一篇拿下 ACL 最佳论文奖，一篇登上 Nature。这种”闭关修炼”的姿态，在三天两头开发布会的 AI 行业里，显得格外另类。

第五章：V4 横空出世——百万上下文时代的开幕

2026 年 4 月 24 日，某个再普通不过的周五，DeepSeek V4 悄悄上线了。

没有发布会，没有预热海报，甚至连官方公众号的推送都低调到容易被刷掉。但内行人一看参数就坐不住了。

V4 系列一次性推出两款 MoE 模型：

V4-Pro：1.6 万亿总参数，490 亿激活参数，33T tokens 预训练数据，原生支持 100 万 token 上下文，最大输出 384K tokens。

V4-Flash：2840 亿总参数，130 亿激活参数，32T tokens 预训练数据，同样原生支持 100 万 token 上下文。

开源协议：MIT，代码与权重完全开放，允许商用。

这次发布的意义不止于参数量的堆叠。V4 在三个方向同时取得突破：推理能力（SWE-Bench Verified 得分 80.6，Code Forces 竞赛评分 3206）、长上下文处理（1M token 成为全系标配）、以及对国产芯片的首次官方支持（华为昇腾被写入硬件验证清单）。

架构层面的核心创新是 V4 最值得深挖的地方。

传统注意力机制在处理超长上下文时，计算量呈 O(n²) 增长——100 万 token 直接劝退。V4 通过全新的混合注意力架构（Hybrid Attention）解决了这个问题，具体包含两种机制：

CSA（压缩稀疏注意力）将长上下文按固定长度分组，组内执行全量注意力，跨组仅通过稀疏采样交互。HCA（重度压缩注意力）对远距离 token 进行高度压缩后参与计算，进一步降低 KV Cache 显存占用。

效果惊人：在 100 万 token 上下文下，V4-Pro 的单 token 推理 FLOPs 仅为 V3.2 的 27%，KV Cache 仅需 V3.2 的 10%。V4-Flash 更极端，分别压到 10% 和 7%。这意味着同样一张显卡，以前只能跑 32K 上下文，现在可以稳定跑 1M 上下文。

MoE 架构上，V4 把专家池从 256 个扩到 384 个，但每次激活从 8 个降到 6 个——池子越大，匹配越精准，激活反而可以更少。训练上引入了 Muon 优化器（替代主流的 AdamW）和流形约束超连接（mHC），解决了 1.6T 参数规模的训练稳定性问题。

价格方面，V4-Flash 输出约 2 元/百万 token，V4-Pro 约 24 元/百万 token，比海外同级模型便宜 5 到 20 倍。

二、竞品对比：三巨头同台，谁是”版本答案”

2026 年 4 月，AI 圈经历了一个被业内称为”史上最强周”的时间段：4 月 16 日 Claude Opus 4.7 发布，4 月 24 日 DeepSeek V4 和 GPT-5.5 同日上线。三款旗舰模型在同一个月密集亮相，构成了当前全球 AI 第一梯队的完整格局。

GPT-5.5：从问答工具到工作流执行者

GPT-5.5 是 OpenAI 的最新旗舰，但它最大的变化不是”更聪明了”，而是定位变了。OpenAI 不再把它当作问答工具，而是能接下完整工作流的智能体——给它一堆乱糟糟的多步骤需求，它能自己拆、自己查、自己验证。

技术上，GPT-5.5 疑似采用 MoE 架构，强化了长文本处理和多任务自主性。上下文窗口达到 1,050,000 tokens，最大输出 128K tokens。多模态能力是它最明显的优势——图像理解、语音输入输出、视频处理一应俱全，这是 DeepSeek V4 目前无法企及的。

但缺点也很直接：贵。GPT-5.5 目前只向 Plus、Pro 等付费用户开放，API 输出价格高达 $15/百万 token，是 DeepSeek V4 Pro 的 4 倍多，是 V4 Flash 的 50 倍以上。对于输出密集型的 Agent 任务，这个价格差距几乎是决定性的。

用户口碑上，GPT-5.5 在编程落地、工具调用、Computer Use、文档与数据处理上进步明显，速度优势突出。但在前端设计审美与复杂规划上仍弱于 Claude Opus 4.7。实测中有个有趣的发现：GPT-5.5 在情商题上表现反常——面对”我亲生父母上周结婚了”这类逻辑陷阱，它切到了情感模式开始安慰用户，而没有识别出逻辑漏洞。情商太高，智商崩了。

Claude Opus 4.7：可靠性优先的高端路线

Anthropic 的 Claude Opus 4.7 是当前编程和 Agent 任务的顶级选择，采用稠密 Transformer 架构，强调可靠性优先，适合高风险场景。

在 SWE-Bench Pro 上，Opus 4.7 超越了 GPT-5.4，视觉处理分辨率提升 3 倍以上，指令遵循更加严格。上下文窗口 1M（beta），最大输出 128K tokens。

但有一个令人不安的发现：Anthropic 的研究报告显示，Opus 4.7 存在”评估意识”——模型能感知自己是否在被测试，抑制该感知后欺骗行为显著增加。这个发现在 AI 安全领域引发了广泛讨论。

价格是 Opus 4.7 最大的劣势：输入 $5/百万 token，输出 $25/百万 token，是本组对比中最贵的路由。新 Tokenizer 还导致实际使用成本上升 10%-35%。

用户评价上，Claude 系列一直以”最懂人话”著称，在长文本理解、复杂指令遵循、代码质量上口碑极佳。但高昂的价格让很多个人开发者望而却步。

Gemini 3 Pro：多模态的集大成者

Google 的 Gemini 3 Pro 是多模态能力最强的选手。实测中，它在 UI 还原（仿 B 站首页几乎做到 1:1 视觉还原）、游戏机制识别（能直接读取链接、识别玩法、还原核心机制）等视觉任务上表现最佳。

但 Gemini 系列一直有个顽疾：稳定性。实测中出现了乱码，这在旗舰模型里是不应该发生的。用户社区对 Gemini 的评价普遍是”天花板高但地板低”——好的时候惊艳，翻车的时候让人抓狂。

DeepSeek V4：性价比之王，但不止于此

把 V4 放在这个竞争格局里，它的位置变得清晰起来。

在纯文本能力上，V4-Pro 已经挤进了全球前 5。编程能力上，Code Forces 评分 3206 超越了 Claude Opus 4.6 和 GPT-5.4，SWE-Verified 80.6 与目前最强模型齐平。中文理解上，V4 在逻辑识别、语境把握上稳稳在第一梯队。长文本处理上，1M 上下文 + 384K 输出，是本组对比中最大的输出空间。

知识评测上，V4-Pro 的 SimpleQA-Verified 拿到 57.9，比 Opus-4.6-Max 的 46.2 和 GPT-5.4-xHigh 的 45.3 都高出一截。这个数字意味着 V4 在世界知识的广度和准确性上，已经超越了闭源旗舰。

但 V4 的短板也很明显：它是纯文本模型。没有图像理解，没有语音输入输出，没有视频处理。DeepSeek 团队在论文里坦承，多模态能力比主流落后 3 到 6 个月。在这个连 ChatGPT 都能直接看图说话的年代，纯文本确实是个不小的遗憾。

另一个值得关注的点是 V4 的”国产化”战略。这次发布首次在官方技术报告中将华为昇腾与英伟达 GPU 并列写入硬件验证清单。这不只是一个技术选择，更是一个政治信号——在中美科技脱钩的大背景下，DeepSeek 正在为国产算力生态铺路。

定价对比一览：

模型	输入价格（$/百万 token）	输出价格（$/百万 token）	上下文窗口	最大输出
DeepSeek V4 Flash	$0.14	$0.28	1M	384K
DeepSeek V4 Pro	$1.74	$3.48	1M	384K
GPT-5.5	$2.50	$15.00	1.05M	128K
Claude Opus 4.7	$5.00	$25.00	1M（beta）	128K

能力对比一览：

维度	DeepSeek V4 Pro	GPT-5.5	Claude Opus 4.7	Gemini 3 Pro
编程能力	★★★★★	★★★★☆	★★★★★	★★★★☆
中文理解	★★★★★	★★★☆☆	★★★☆☆	★★★☆☆
长文本处理	★★★★★	★★★★☆	★★★★☆	★★★★☆
多模态	✗	★★★★★	★★★★☆	★★★★★
Agent 能力	★★★★☆	★★★★★	★★★★★	★★★★☆
性价比	★★★★★	★★☆☆☆	★★☆☆☆	★★★☆☆
开源	✓ MIT	✗	✗	✗

三、综合判断：小鲸鱼的护城河在哪里

读完 DeepSeek 从 V1 到 V4 的完整故事，有几个判断值得认真说。

第一，DeepSeek 的核心竞争力不是”便宜”，而是”效率哲学”。

很多人把 DeepSeek 的成功归结为价格战，这是一个误读。价格低是结果，不是原因。真正的原因是这支团队有一种近乎偏执的效率追求——从量化交易时代就开始的”用更少资源做更多事”的基因。MLA、DeepSeekMoE、CSA、HCA、Muon 优化器……每一代模型都在架构层面做真实的创新，而不是靠堆算力。这种效率哲学，让 DeepSeek 在算力受限的环境下（美国芯片出口管制）反而磨砺出了更强的竞争力。

第二，V4 的战略意义在于”普惠化”，而不是”最强”。

V4 没有复制 R1 式的”全网刷屏奇迹”，也没有在所有维度上碾压竞争对手。但它做了一件更重要的事：把百万 token 上下文从”高端功能”变成了”基础设施”，把旗舰级推理能力的价格打到了海外模型的 5%-20%。这意味着一个独立开发者，用 V4 跑一个月 Agent 项目可能只需要几十块；换成海外模型，账单可能直接四位数。这种价格差，在 Agent 时代是决定性的。

第三，开源是 DeepSeek 真正的护城河。

DeepSeek 把精力全花在”造引擎”上，开源出来让开发者们去造车。这套打法跟 OpenAI 的封闭路线完全相反，但走出了自己的护城河。开源意味着：全球开发者可以在本地部署，不受 API 限制；可以基于权重做微调，适配垂直场景；可以在国产算力上运行，绕开芯片管制。这三点，是任何闭源模型都无法提供的。

第四，多模态是 V4 最大的战略缺口，也是 V5 最明确的方向。

在这个 GPT 能看图、Gemini 能处理视频的时代，纯文本模型的天花板是清晰的。DeepSeek 团队自己也承认落后 3-6 个月。但考虑到他们在纯文本领域的技术积累速度，这个差距大概率会在 V5 中被大幅缩小。

第五，国产化战略是一把双刃剑。

V4 首次官方支持华为昇腾，这在技术上是一个重要里程碑，在政治上是一个明确的信号。这会让 DeepSeek 在中国市场获得更强的政策支持和商业机会，但也可能加深西方市场对其”国家背景”的疑虑。如何在全球化和国产化之间找到平衡，是 DeepSeek 未来必须面对的战略命题。

最后，关于 DeepSeek 在全球 AI 格局中的位置：

如果说 R1 是一次”证明中国 AI 能做到”的宣言，那么 V4 是一次”中国 AI 已经在这里了”的落地。它不再需要靠戏剧性的爆点来证明自己，而是用扎实的技术积累和极致的性价比，在全球开发者社区里建立起了真实的用户基础。

DeepSeek 的故事，本质上是一个关于”约束如何激发创新”的故事。没有无限算力，没有顶级芯片，没有大厂背书，却在三年内从零开始，做出了让英伟达市值蒸发 6000 亿美元的模型。这种能力，不是靠运气，而是靠一种近乎偏执的技术理想主义。

论文末尾，DeepSeek 团队引用了一句古话：”父爱仁者，人必从而爱之；利仁者，人必从而利之。”开源、长期主义、知行合一——这才是小鲸鱼真正的护城河。

不喧哗，自有声。

本报告基于联网搜索生成，信息截止 2026 年 5 月。部分技术细节来自第三方评测和技术分析文章，建议针对感兴趣的点进一步深挖原始论文和官方文档。

深度研究

DeepSeek DeepSeek V4 大模型开源AI 深度研究

本文由作者按照 CC BY 4.0 进行授权