什么是 AI Coding?

AI Coding 分级

AI Coding 主流 L1-L5 的工具,来源: https://paradite.github.io/ai-coding/

AI Coding 主流 L1-L5 的工具,来源: https://paradite.github.io/ai-coding/

为了更直观的感觉不同 AI Coding 工具能力和差异,可以参考自动驾驶的分级机制,对 AI Coding 工具进行分级:

Level High-level Approaches Example Popular Products
L1 Code-level Completion GitHub Copilot, Tabby
L2 Task-level Code GenerationTicket to CodeIDE with Chat ChatGPT, Claudeaider, cline, 16x Prompt, Cursor, Continue, PearAI, Windsurf
L3 Project-level GenerationTicket to PRPrompt to UI Codegen, SweepPythagora, Plandexv0
L4 PRD to ProductionAI Software Engineer Marblism, bolt.new, Trickle, LovableDevin, Genie, Engine, devlo, Gru
L5 AI Development Teams AutoDev, MetaGPT, MGX

简单而言,AI Coding 自动级别越高:

<aside> 💡

主流的 AI Coding 有两种工作模式,一种是 Copilot 类型的,以提供建议为主,一次性,不循环,也就是 L1 级别;另一种是 Agent 类型的,「Agents are systems that independently accomplish tasks on your behalf」,能够自我执行,并从外部环境主动收集信息,持续迭代完成任务,目前的 L2 - L4 其实都属于这个范畴。

</aside>

但实际上,当下任何 AI Coding 工具,「智能」程度是类似的,L2 - L4 的边界是相对模糊的,我们很难通过级别划分清晰区分 AI Coding 工具的差异,因此,我们需要用更多维度来区分这些工具。

AI Coding 核心维度

在实践中,可以总结一些核心的维度特征,通过这些维度下能力的差异,可以更好的区分各个 AI Coding 产品的差异:

维度 相关内容 核心差异
Intelligent AI Coding 的智能程度,本质就是核心大模型,主流的 AI Coding 工具,都是基于现成的大模型,比如 GPT-4o Claude-3.5-Sonnect DeepSeek-R1 ;类似 Cursor、Windsurf 也有自研的模型,但大都是做为保底策略,并不是主流选择。 AI Coding 最核心的是智能,但这也其实是各个 AI Coding 工具差异最小的点,这是因为大家都主要依赖公开大模型,因此核心差异取决于用哪个大模型

比如,就个人体感而言,Claude-Sonnect 是目前最好的 AI Coding 大模型,不论在代码质量、思路上都相对突出; GPT 系列可能是和它最接近的,但在代码实现细节上总是感觉差一点;而 DeepSeek 就是那种思维特别活跃,但代码总是离经叛道钻牛角尖 | | Context | 上下文(Context)不仅包含了会话的上下文,还包括了工程相关的全部代码、文档,以及三方的各种文档资料 | AI Coding 能覆盖的场景很大程度上取决于其对 Context 的处理能力

一方面,实际项目中要实现新的逻辑,需要去理解项目已有的代码结构、技术选型等,需要覆盖很多代码文件,如果不能妥善去处理相关的代码、文档,就会和当前已有实现各个不入,难以融入。 另一方面,对于复杂需求,有相当长的讨论和执行过程,如果不能够很好的记录聊天的上下文,就会很「健忘」,过程中把一些需求和约束抛之脑后。

实践中,不同 AI Coding 对上下文处理的能力、处理的方式还是有挺多不同,虽然都不算完美。相较而言 Windsurf、Cursor 就会比 Copilot(尤其是插件)好很多。 | | Tools | 工具指的是具体用何种方式提供 AI Coding 的服务,以及使用上的各种细节。 | Tools 的模式,往往定义了整个工作流,而具体的细节就会令人产生好感进而形成粘性。

典型的,有类似 ChatGPT 这样基于会话的,在实际应用中,会比较像「玩具」,适合做那种独立的小工作,和实际程序员工作流差异很大。

最主流的,是基于 IDE 的,类似 Windsurf、Cursor,等等,这个和我们日常开发的工作流最相近,是一个「同步」的工作方式,只是会感觉你多了一个并肩作战的同伴,和蔼勤奋不辞辛劳。

而典型的 L3 及以上的,都是更 Repository Based,比如 Github Copilot Workspace、Devin、bolt.new 等等,就像你和同组的另一个程序员合作,告诉需求后他自己会完成开发调试提交代码,你做 Code Review,通过或拒绝,是一个更独立更「异步」的方式,如果这个同事能力足够,这是一个更为轻松的方式,但很遗憾,目前这个同事总还是差点意思,可能需要反复被打回反复提交,效率反而降低了。 | | Agentic | Agent 指的是在 Coding 过程中,自主完成相关工作的能力,包括:写代码、分析并执行 Bash、分析定位错误,等等 | Agent 能力定义了 AI Coding 自动化程度,编码只是编程工作的一部分,很多时候我们都在分析定位问题,构建环境,执行相关指令等等,这部分工作穿插在编码工作中进行,只有 AI Coding 能够自主的完成这部分工作,才能更自动化的来执行任务。也可以说 Agent 能力是从 Copilot 晋升到 AI Engineer 的最重要因素。

不同的 AI Coding 工具在这个环节差距也是有不小的,因为需要构建各种执行器,以及通过 Tools 连接模型。Windsurf 的 Agent 模式构建的最早,但逐步的 Cursor 和 Copilot 也逐步在补齐。 |

按这个维度划分,主流工具大致特征如下:

Untitled

从列表中可以看到,区分体验的主要是 Tools + Agentic 的能力,核心可以分成基于本地 IDE 和 Repo Workflow 的两类:

AI Coding Workflow.png