AI编程工具正转向一个意外的地方:终端
AI编程工具正转向一个意外的地方:终端
多年来,像Cursor、Windsurf这样的代码编辑工具,以及GitHub的Copilot,一直是AI驱动软件开发的标杆。但随着智能体AI愈发强大,以及”氛围编程”的兴起,一个微妙的转变正在悄然改变AI系统与软件交互的方式。
AI系统不再仅仅专注于编写代码,而是越来越多地直接与它们所安装系统的终端进行交互。这是AI驱动软件开发领域的一个重大转变——尽管这个趋势并不那么引人注目,但它可能对整个行业的未来发展产生深远影响。
终端最为人熟知的形象,就是90年代黑客电影里那个黑底白字的屏幕——一种非常”复古”的程序运行和数据操作方式。虽然在视觉上不如现代代码编辑器那么酷炫,但如果你知道如何使用它,终端其实是一个极其强大的界面。虽然基于代码的智能体可以编写和调试代码,但要将代码从”写出来”变成”真正能用”,往往还是需要终端工具的帮助。
这种向终端转移的最明显信号来自各大科技巨头。自今年2月以来,Anthropic、DeepMind和OpenAI都发布了命令行编程工具(分别是Claude Code、Gemini CLI和CLI Codex),而且它们已经成为这些公司最受欢迎的产品之一。
这种转变很容易被忽视,因为它们在很大程度上仍沿用着之前编程工具的品牌标识。但在底层,智能体与其他计算机(无论是在线还是离线)的交互方式确实发生了实质性变化。有人认为这些变化才刚刚开始。
“我们的大胆预测是,未来95%的大语言模型与计算机的交互都将通过类似终端的界面来完成,”领先的终端专用基准测试Terminal-Bench的联合创建者Mike Merrill如是说。
基于终端的工具开始崭露头角,恰逢一些知名的基于代码的工具开始显露疲态。AI代码编辑器Windsurf就被收购大战搞得支离破碎,高级管理层被Google挖走,剩下的公司被Cognition收购——这让消费者产品的长期前景变得不确定。
与此同时,新研究表明程序员可能高估了传统工具带来的生产力提升。METR的一项研究测试了Windsurf的主要竞争对手Cursor Pro,发现虽然开发者估计他们能将任务完成速度提高20%到30%,但实际观察到的过程却慢了近20%。简而言之,这个代码助手实际上在浪费程序员的时间。
这为像Warp这样的公司留出了机会空间,Warp目前在Terminal-Bench上排名第一。Warp将自己定位为”智能体开发环境”,是IDE程序和像Claude Code这样的命令行工具之间的中间地带。
但Warp创始人Zach Lloyd仍然看好终端,认为它是解决代码编辑器如Cursor无法处理问题的一种方式。
“终端在开发者技术栈中处于非常底层的位置,所以它是运行智能体最灵活的地方,”Lloyd说道。
要理解这种新方法的不同之处,看看用来衡量它们的基准测试会很有帮助。基于代码生成的工具时代专注于解决GitHub问题,这是SWE-Bench测试的基础。SWE-Bench上的每个问题都是来自GitHub的开放性问题——本质上就是一段不能正常工作的代码。
模型会不断迭代代码,直到找到可行的方案,从而解决问题。像Cursor这样的集成产品已经为这个问题构建了更复杂的方法,但GitHub/SWE-Bench模式仍然是这些工具处理问题的核心:从有问题的代码开始,将其转化为能正常工作的代码。
基于终端的工具则采取了更宽广的视角,不仅关注代码本身,还关注程序运行的整个环境。这不仅包括编程,还包括更多面向DevOps的任务,比如配置Git服务器或排查脚本无法运行的问题。
在TerminalBench的一个问题中,指令给出了一个解压程序和目标文本文件,挑战智能体逆向工程出匹配的压缩算法。另一个问题要求智能体从源码构建Linux内核,但没有提到智能体需要自己下载源码。解决这些问题需要程序员那种顽强的问题解决能力。
“让TerminalBench变得困难的不仅仅是我们给智能体的问题,”Terminal-Bench联合创建者Alex Shaw说,”更重要的是我们将它们置于其中的环境。”
关键在于,这种新方法意味着要逐步解决问题——这正是让智能体AI如此强大的技能。但即使是最先进的智能体模型也无法处理所有这些环境。Warp在Terminal-Bench上获得高分,是通过解决刚过半数的问题——这标志着基准测试的挑战性有多大,以及要充分发挥终端潜力还需要做多少工作。
尽管如此,Lloyd相信我们已经到了这样一个节点:基于终端的工具可以可靠地处理开发者的大部分非编程工作——这个价值主张很难被忽视。
“如果你想想建立新项目、搞清楚依赖关系并让它能够运行这些日常工作,Warp基本上可以自主完成,”Lloyd说道,”如果它做不到,它会告诉你为什么做不到。”