
AI Coding 主流 L1-L5 的工具,来源: https://paradite.github.io/ai-coding/
为了更直观的感觉不同 AI Coding 工具能力和差异,可以参考自动驾驶的分级机制,对 AI Coding 工具进行分级:
| Level | High-level Approaches | Example Popular Products |
|---|---|---|
| L1 | Code-level Completion | GitHub Copilot, Tabby |
| L2 | Task-level Code GenerationTicket to CodeIDE with Chat | ChatGPT, Claudeaider, cline, 16x Prompt, Cursor, Continue, PearAI, Windsurf |
| L3 | Project-level GenerationTicket to PRPrompt to UI | Codegen, SweepPythagora, Plandexv0 |
| L4 | PRD to ProductionAI Software Engineer | Marblism, bolt.new, Trickle, LovableDevin, Genie, Engine, devlo, Gru |
| L5 | AI Development Teams | AutoDev, MetaGPT, MGX |
简单而言,AI Coding 自动级别越高:
<aside> 💡
主流的 AI Coding 有两种工作模式,一种是 Copilot 类型的,以提供建议为主,一次性,不循环,也就是 L1 级别;另一种是 Agent 类型的,「Agents are systems that independently accomplish tasks on your behalf」,能够自我执行,并从外部环境主动收集信息,持续迭代完成任务,目前的 L2 - L4 其实都属于这个范畴。
</aside>
但实际上,当下任何 AI Coding 工具,「智能」程度是类似的,L2 - L4 的边界是相对模糊的,我们很难通过级别划分清晰区分 AI Coding 工具的差异,因此,我们需要用更多维度来区分这些工具。
在实践中,可以总结一些核心的维度特征,通过这些维度下能力的差异,可以更好的区分各个 AI Coding 产品的差异:
| 维度 | 相关内容 | 核心差异 |
|---|---|---|
| Intelligent | AI Coding 的智能程度,本质就是核心大模型,主流的 AI Coding 工具,都是基于现成的大模型,比如 GPT-4o Claude-3.5-Sonnect DeepSeek-R1 ;类似 Cursor、Windsurf 也有自研的模型,但大都是做为保底策略,并不是主流选择。 |
AI Coding 最核心的是智能,但这也其实是各个 AI Coding 工具差异最小的点,这是因为大家都主要依赖公开大模型,因此核心差异取决于用哪个大模型。 |
比如,就个人体感而言,Claude-Sonnect 是目前最好的 AI Coding 大模型,不论在代码质量、思路上都相对突出; GPT 系列可能是和它最接近的,但在代码实现细节上总是感觉差一点;而 DeepSeek 就是那种思维特别活跃,但代码总是离经叛道钻牛角尖 |
| Context | 上下文(Context)不仅包含了会话的上下文,还包括了工程相关的全部代码、文档,以及三方的各种文档资料 | AI Coding 能覆盖的场景很大程度上取决于其对 Context 的处理能力。
一方面,实际项目中要实现新的逻辑,需要去理解项目已有的代码结构、技术选型等,需要覆盖很多代码文件,如果不能妥善去处理相关的代码、文档,就会和当前已有实现各个不入,难以融入。 另一方面,对于复杂需求,有相当长的讨论和执行过程,如果不能够很好的记录聊天的上下文,就会很「健忘」,过程中把一些需求和约束抛之脑后。
实践中,不同 AI Coding 对上下文处理的能力、处理的方式还是有挺多不同,虽然都不算完美。相较而言 Windsurf、Cursor 就会比 Copilot(尤其是插件)好很多。 | | Tools | 工具指的是具体用何种方式提供 AI Coding 的服务,以及使用上的各种细节。 | Tools 的模式,往往定义了整个工作流,而具体的细节就会令人产生好感进而形成粘性。
典型的,有类似 ChatGPT 这样基于会话的,在实际应用中,会比较像「玩具」,适合做那种独立的小工作,和实际程序员工作流差异很大。
最主流的,是基于 IDE 的,类似 Windsurf、Cursor,等等,这个和我们日常开发的工作流最相近,是一个「同步」的工作方式,只是会感觉你多了一个并肩作战的同伴,和蔼勤奋不辞辛劳。
而典型的 L3 及以上的,都是更 Repository Based,比如 Github Copilot Workspace、Devin、bolt.new 等等,就像你和同组的另一个程序员合作,告诉需求后他自己会完成开发调试提交代码,你做 Code Review,通过或拒绝,是一个更独立更「异步」的方式,如果这个同事能力足够,这是一个更为轻松的方式,但很遗憾,目前这个同事总还是差点意思,可能需要反复被打回反复提交,效率反而降低了。 | | Agentic | Agent 指的是在 Coding 过程中,自主完成相关工作的能力,包括:写代码、分析并执行 Bash、分析定位错误,等等 | Agent 能力定义了 AI Coding 自动化程度,编码只是编程工作的一部分,很多时候我们都在分析定位问题,构建环境,执行相关指令等等,这部分工作穿插在编码工作中进行,只有 AI Coding 能够自主的完成这部分工作,才能更自动化的来执行任务。也可以说 Agent 能力是从 Copilot 晋升到 AI Engineer 的最重要因素。
不同的 AI Coding 工具在这个环节差距也是有不小的,因为需要构建各种执行器,以及通过 Tools 连接模型。Windsurf 的 Agent 模式构建的最早,但逐步的 Cursor 和 Copilot 也逐步在补齐。 |
按这个维度划分,主流工具大致特征如下:
从列表中可以看到,区分体验的主要是 Tools + Agentic 的能力,核心可以分成基于本地 IDE 和 Repo Workflow 的两类:
