Spec-Driven Development 深度研究:从 Vibe Coding 失控到规格驱动的工程化之路
一、历史演进:这场范式转变从哪里来
代码生成工具爆发前夜(2022-2023)
2022年6月,GitHub Copilot正式向公众开放。这是第一款大规模商用的AI代码补全工具,它背后的技术基础来自OpenAI的Codex模型。Copilot的工作逻辑很简单:看你在打什么,猜你下一行想写什么,然后给你补全。它的本质是一个极其聪明的「Tab键」。
这个定位非常保守,也非常明智。它把AI定位成程序员的辅助工具,而不是能自主完成任务的Agent。这保证了它能快速融入现有工作流,不打断程序员的思维节奏。但同时,这种「补全」的逻辑也天然有个上限:它不理解你在做什么,也不知道你最终要达到什么目标。
2023年初,随着GPT-4发布,AI的代码能力发生了质变。模型不再只是补全代码,而是开始能理解较为复杂的需求并生成完整函数,甚至完整模块。这个变化推动了一批新型AI编程工具的涌现——Cursor于2023年上半年开始快速崛起,它把整个代码编辑器包裹在AI能力之内,让用户可以用自然语言直接描述要修改什么、新增什么、重构什么。
这是一个关键转折:AI第一次从「自动补全工具」升级为「能执行意图的对话伙伴」。
Vibe Coding 的诞生与爆炸(2025年2月)
2025年2月6日,Andrej Karpathy——OpenAI联合创始人、特斯拉前AI总监、AI领域最受关注的技术布道者之一——在X(原Twitter)上发了一条帖子,正式提出了「Vibe Coding」这个词:
“There’s a new kind of coding I call ‘vibe coding’, where you fully give in to the vibes, embrace exponentials, and forget that the code even exists.”
这条帖子迅速在开发者社区引爆。Vibe Coding描述的是一种全新的开发方式:你不再需要关心语法、不需要记函数名,你只需要向AI描述你的「感觉」和「意图」,AI自动生成代码,你只需要验证结果是否符合期望。
这个概念为什么爆了?因为它说出了很多人已经在做、但没有命名的事情。当Cursor、Claude等工具足够强大时,确实有大量开发者开始用一种非常随意的方式工作:扔给AI一个模糊的想法,看它生成什么,不满意就再说一遍,直到差不多为止。这在个人项目、快速原型、小工具场景里效率极高。
Vibe Coding这个词,也成为了2025年Collins词典的年度词汇,标志着这种现象已经从开发者圈子溢出到了更广泛的文化讨论中。
但Karpathy自己也说过:「Vibe coding适合demo和实验,如果涉及生产系统,你最好还是理解你在做什么。」这句隐隐的警告,为后来的反思埋下了伏笔。
失控感开始出现:工程团队的困惑(2025年上半年)
Vibe Coding爆火之后,一波反思迅速跟上。大量有工程背景的开发者开始分享他们的真实体验:
AI确实能在几分钟内生成几百行代码,但问题是:这些代码符合你的系统架构吗?它有没有破坏现有约定?它有没有被测试覆盖?如果三个月后你要改这段代码,你能快速理解它在干什么吗?
这些问题在个人项目里不是大问题,但在团队协作的生产系统里,每一个都是真实的工程负债。
团队开始发现几个反复出现的模式:AI倾向于「先实现,后测试」,而且补的测试往往只覆盖happy path;AI在多轮对话后会逐渐丢失早期约束,悄悄引入新的架构决策;AI生成的代码量大且自信,导致Code Review从「评审设计」变成了「排雷」;需求和代码之间没有可追踪的映射关系,也无法回答「这段代码对应哪个需求」的问题。
这一系列问题没有否定AI编程的价值,但让严肃的工程团队开始思考:能不能把AI的生产力和工程的纪律结合起来?
Amazon Kiro:商业产品接棒,SDD走向主流IDE(2025年7月)
Amazon AWS于2025年7月发布了Kiro的预览版。Kiro的定位是一款完整的AI IDE,核心卖点正是规格驱动开发。
Kiro的核心机制是在开始编码前自动生成三份「活文档」:需求文档(requirements.md)、系统设计文档(design.md)和任务清单(tasks.md)。这些文档会随代码演进同步更新,不是一次性的静态文档,而是真正贯穿整个开发生命周期的活跃资产。
Kiro的Hooks机制监听代码变更并自动触发规格更新,这解决了「规格文档最终变成废纸」的痛点——这个问题在传统文档工具里几乎无解。AWS的商业背书,让SDD从开源社区的实验性探索,走向了企业级开发工具的主流视野。
GitHub Spec Kit:官方入场,SDD概念正式成型(2025年9月)
2025年9月8日,GitHub官方发布了Spec Kit,正式提出了Specification-Driven Development(规格驱动开发,SDD)的完整概念框架。
GitHub Blog发文明确宣告了这个概念的核心主张:
“For decades, code has been king. Specifications served code—they were the scaffolding we built and then discarded once the ‘real work’ of coding began. Spec-Driven Development inverts this power relationship: specifications are no longer the input to development, they are development.”
长期以来,PRD、设计文档、架构图都只是「辅助scaffolding」——写完就扔,真正重要的是代码。Spec Kit的立场是:在AI编程时代,这个逻辑必须反转——规格本身就是开发的核心产物,代码是规格的执行结果。
Spec Kit的工具链包含几个核心命令:/speckit.constitution(定义工程原则)、/speckit.specify(沉淀需求和验收标准)、/speckit.clarify(澄清模糊点)、/speckit.plan(制定技术方案)、/speckit.tasks(拆解可执行任务)、/speckit.analyze(检查一致性)、/speckit.implement(进入实现)。
发布一个月内获得约2.8万颗星,截至2026年4月累计超过9万颗星。Spec Kit与工具无关,同时支持Claude Code、GitHub Copilot、Cursor、Windsurf、Gemini CLI等所有主流AI编程工具。
Superpowers 出现:给AI编程Agent套上工程框架(2025年10月)
Jesse Vincent(GitHub ID: obra)在2025年10月发布了第一个版本的Superpowers。
Superpowers的出发点很朴素:AI Agent最大的问题不是不聪明,而是没有工程习惯。一个不受约束的AI Agent,就像一个能力很强但行事鲁莽的实习生——它会直接扑上去写代码,跳过需求澄清、跳过设计讨论、跳过测试,完成后也不会主动检查是否符合原始要求。
Superpowers为AI Agent提供一套可组合的技能(Skills),每个技能是一段精心设计的Prompt,约束AI在特定阶段应该怎么工作。核心技能包括:Brainstorming(开工前先澄清需求)、TDD(强制先写失败测试再实现)、Review(完成后对照需求做代码审查)、Verification(完成前系统性检查交付状态)。
这些技能背后有工程学层面的设计考量,开发者引用了「说服心理学」:仅仅告诉AI「你应该做什么」是不够的,还需要告诉它「为什么这样做对工程有益」,这样AI才会真正遵守,而不是在其他指令的压力下绕过约束。
Superpowers发布后增长异常迅速:最初几千星,几个月后突破2.7万,到2026年3月突破12万星,成为史上增长最快的AI编程辅助工具之一。Anthropic官方将其收录进Claude Code的推荐资源库——主流AI平台开始认可「工程纪律约束框架」这条路线的价值。
二、竞品对比:SDD赛道上的五种玩家
Spec Kit + Superpowers(GitHub + Jesse Vincent)
这是目前在开源社区影响力最大的「双层」方案。分工非常清晰:Spec Kit负责「应该构建什么」,Superpowers负责「应该如何构建」。
核心优势在于工具无关性——它可以叠加在任何AI编程环境上,而不是绑定某款工具。GitHub官方背书保证了文档质量和长期维护。Superpowers的技能设计有工程学深度,不只是Prompt模板,而是有方法论支撑的工作流约束。
主要劣势是需要手动安装和配置,有学习曲线;规格文档与代码的同步更新依赖开发者主动维护,自动化程度不如Kiro。
社区普遍反馈:Superpowers的最大价值是「逼着AI在正式写代码前先讨论设计」——哪怕只用到Brainstorming这一个技能,对代码质量的提升也是立竿见影的。Spec Kit的Constitution命令被很多团队用来解决「AI每次对话都重新发明架构」的问题。
Amazon Kiro
Kiro是商业SDD方案的代表。它把「需求文档优先」的逻辑做进了IDE本身,活文档机制是真正的差异化能力——文档自动随代码变更更新,从根本上解决了「规格文档最终变成废纸」的行业痛点。
但Kiro与VS Code深度绑定,对快速迭代的小团队可能显得「太正式了」——它更适合需求相对明确的工程类项目。商业产品的定价和数据隐私也是企业决策时需要考量的因素。
Cursor + OpenSpec
Cursor是目前AI编程工具市占率最高的产品之一。它自身不是SDD工具,但.cursorrules文件支持用户定义工程约束,社区演化出了把Spec Kit工作流接入Cursor的方案(OpenSpec等)。
.cursorrules的本质是静态文本——AI可以「读到」这些规则,但不一定真正遵守,随着对话变长,规则被遵守的概率会下降。很多团队把Cursor和Spec Kit结合使用,让前者处理代码实现,后者管理规格上下文。
Claude Code + CLAUDE.md + Superpowers
Claude Code是Anthropic于2025年推出的CLI编程工具。CLAUDE.md文件天然成为了一种轻量级SDD工具——将Constitution和Specify的内容写入其中,基本就能实现Spec Kit的核心价值。
Claude Code对CLAUDE.md的遵守程度明显高于Cursor对.cursorrules的遵守程度,这与其Agent工作流的设计有关。与Superpowers的组合是目前社区口碑最好的「高纪律AI编程」方案,Anthropic官方认可也为长期支持提供了信号。
Devin 和全自动Agent
Devin(Cognition AI)代表了另一个极端:完全自主的AI软件工程师,从需求到PR完全自动化。SWE-bench评测中,Devin曾以最高的解题率引发业界震动。
但真实使用报告显示:Devin在完全自由模式下会做出各种「看似合理但不是你要的」决策;对大型复杂代码库的理解能力有上限;对于需要多轮人工决策的工程任务,全自动反而增加了返工成本。
这个对比揭示了一个反直觉的结论:最「聪明」的AI Agent,不一定最适合严肃工程。 工程质量的核心不是生成能力,而是对需求的准确理解和对约束的持续遵守——这正是SDD工具链试图解决的问题。
三、综合判断
这不是AI是否够强的问题,而是开发范式的问题
回顾这个领域的演进脉络,有一个反直觉的结论浮出水面:AI能力的提升,反而让工程规范变得更重要,而不是更不重要。
2022年Copilot刚出来的时候,它只能补全几行代码,开发者始终掌握全局上下文,AI犯错的代价很低。但当AI能够在几秒内生成几百行代码、自主决定架构结构、独立完成一个功能的实现时,「让AI自由发挥」的风险就被放大了同等倍数。
Vibe Coding的热潮说明了一件事:大量开发者意识到了速度的可能性,但还没有意识到控制权的必要性。Spec Kit、Superpowers、Kiro的相继出现,标志着这个认知正在迅速成熟。
Spec Kit + Superpowers 的组合为什么值得认真对待
在所有竞品中,这个组合的设计哲学是最接近「真实工程团队应该如何工作」的。
Spec Kit解决的核心问题是「规格漂移」——在多轮AI对话中,最初的需求约束会被不断稀释,最终实现的东西和最初要做的东西可能相差甚远。Constitution和Specify把关键约束显式化,让AI在每次实现前都能回到这个「北极星」。
Superpowers解决的核心问题是「流程缺失」——AI天然倾向于「直接写代码」,跳过设计讨论、测试策略和完成验收。它通过技能系统强制AI走完整个工程流程,不给跳步的机会。
两者的组合,实际上是在用「流程约束」弥补「上下文有限」的本质局限。这是一个务实且高效的工程解决方案,而不是一套需要大量工具链投入才能运转的理想主义框架。
局限性也需要直视
SDD的核心成本是「规格维护负担」。规格文档如果不随代码持续更新,会很快失去可信度,反而成为负担。Kiro的活文档机制试图通过自动化解决这个问题,但目前的自动化程度还有限。
另一个局限是适用场景。SDD最适合需求相对明确、代码需要长期维护的工程项目。对于探索性的Demo、需求仍在快速演变的实验,Vibe Coding依然是更高效的选择。两者不是非此即彼的对立,而是应该根据项目性质灵活切换。
未来走向:SDD将成为AI编程的基础设施
从历史演进来看,这个领域正在经历一条清晰的技术成熟曲线。2025年是Vibe Coding爆发、工程问题暴露的一年;2025-2026年是SDD方法论提出、工具链成形的一年;接下来很可能是SDD能力被内置进主流AI IDE、成为默认工作方式的阶段。
Amazon Kiro的商业化是一个重要信号:当大型云服务商开始把SDD作为产品核心卖点,它就不再只是一个开源社区实验,而是商业上被验证可行的方向。GitHub Copilot未来的版本内置更完整的规格管理能力、Cursor深化与Spec Kit的集成,这些演进几乎是可以预期的。
对于今天的工程团队来说,最务实的建议是:不要等工具成熟再开始,先用Spec Kit建立Constitution和Specify的习惯,用Superpowers约束AI的工作方式。这两个改变的成本极低,但对AI编程质量的提升是立竿见影的。
Vibe Coding给了我们速度,Spec-Driven Development给了我们控制权。两者不是对立的,而是AI辅助开发走向成熟的两个必要阶段。
本报告基于公开资料和联网搜索整理,信息时效截至2026年4月。Superpowers和Spec Kit均处于活跃迭代中,建议参考各项目的最新官方文档。