AI编程工具正转向一个意外的地方：终端

多年来，像Cursor、Windsurf这样的代码编辑工具，以及GitHub的Copilot，一直是AI驱动软件开发的标杆。但随着智能体AI愈发强大，以及”氛围编程”的兴起，一个微妙的转变正在悄然改变AI系统与软件交互的方式。

AI系统不再仅仅专注于编写代码，而是越来越多地直接与它们所安装系统的终端进行交互。这是AI驱动软件开发领域的一个重大转变——尽管这个趋势并不那么引人注目，但它可能对整个行业的未来发展产生深远影响。

终端最为人熟知的形象，就是90年代黑客电影里那个黑底白字的屏幕——一种非常”复古”的程序运行和数据操作方式。虽然在视觉上不如现代代码编辑器那么酷炫，但如果你知道如何使用它，终端其实是一个极其强大的界面。虽然基于代码的智能体可以编写和调试代码，但要将代码从”写出来”变成”真正能用”，往往还是需要终端工具的帮助。

这种向终端转移的最明显信号来自各大科技巨头。自今年2月以来，Anthropic、DeepMind和OpenAI都发布了命令行编程工具（分别是Claude Code、Gemini CLI和CLI Codex），而且它们已经成为这些公司最受欢迎的产品之一。

这种转变很容易被忽视，因为它们在很大程度上仍沿用着之前编程工具的品牌标识。但在底层，智能体与其他计算机（无论是在线还是离线）的交互方式确实发生了实质性变化。有人认为这些变化才刚刚开始。

“我们的大胆预测是，未来95%的大语言模型与计算机的交互都将通过类似终端的界面来完成，”领先的终端专用基准测试Terminal-Bench的联合创建者Mike Merrill如是说。

基于终端的工具开始崭露头角，恰逢一些知名的基于代码的工具开始显露疲态。AI代码编辑器Windsurf就被收购大战搞得支离破碎，高级管理层被Google挖走，剩下的公司被Cognition收购——这让消费者产品的长期前景变得不确定。

与此同时，新研究表明程序员可能高估了传统工具带来的生产力提升。METR的一项研究测试了Windsurf的主要竞争对手Cursor Pro，发现虽然开发者估计他们能将任务完成速度提高20%到30%，但实际观察到的过程却慢了近20%。简而言之，这个代码助手实际上在浪费程序员的时间。

这为像Warp这样的公司留出了机会空间，Warp目前在Terminal-Bench上排名第一。Warp将自己定位为”智能体开发环境”，是IDE程序和像Claude Code这样的命令行工具之间的中间地带。

但Warp创始人Zach Lloyd仍然看好终端，认为它是解决代码编辑器如Cursor无法处理问题的一种方式。

“终端在开发者技术栈中处于非常底层的位置，所以它是运行智能体最灵活的地方，”Lloyd说道。

要理解这种新方法的不同之处，看看用来衡量它们的基准测试会很有帮助。基于代码生成的工具时代专注于解决GitHub问题，这是SWE-Bench测试的基础。SWE-Bench上的每个问题都是来自GitHub的开放性问题——本质上就是一段不能正常工作的代码。

模型会不断迭代代码，直到找到可行的方案，从而解决问题。像Cursor这样的集成产品已经为这个问题构建了更复杂的方法，但GitHub/SWE-Bench模式仍然是这些工具处理问题的核心：从有问题的代码开始，将其转化为能正常工作的代码。

基于终端的工具则采取了更宽广的视角，不仅关注代码本身，还关注程序运行的整个环境。这不仅包括编程，还包括更多面向DevOps的任务，比如配置Git服务器或排查脚本无法运行的问题。

在TerminalBench的一个问题中，指令给出了一个解压程序和目标文本文件，挑战智能体逆向工程出匹配的压缩算法。另一个问题要求智能体从源码构建Linux内核，但没有提到智能体需要自己下载源码。解决这些问题需要程序员那种顽强的问题解决能力。

“让TerminalBench变得困难的不仅仅是我们给智能体的问题，”Terminal-Bench联合创建者Alex Shaw说，”更重要的是我们将它们置于其中的环境。”

关键在于，这种新方法意味着要逐步解决问题——这正是让智能体AI如此强大的技能。但即使是最先进的智能体模型也无法处理所有这些环境。Warp在Terminal-Bench上获得高分，是通过解决刚过半数的问题——这标志着基准测试的挑战性有多大，以及要充分发挥终端潜力还需要做多少工作。

尽管如此，Lloyd相信我们已经到了这样一个节点：基于终端的工具可以可靠地处理开发者的大部分非编程工作——这个价值主张很难被忽视。

“如果你想想建立新项目、搞清楚依赖关系并让它能够运行这些日常工作，Warp基本上可以自主完成，”Lloyd说道，”如果它做不到，它会告诉你为什么做不到。”