ChatGPT有身体了？

网络上最近流传的一个视频,展示了“Figure 01”——一个能够进行对话的人形机器人，其场景之诡异，让人不禁想到《我，机器人》中的某个删减镜头。

视频中，装备了OpenAI的“Figure 01”被问及其能“看到”什么。这个前沿机器人展现了它的视觉识别技能，准确描述了眼前的物体：一颗红苹果、一个挂着餐具的晾碗架，以及向它提问的男子。虽然这听起来有些不可思议，但其实我们早有所见，对吧？比如去年，谷歌演示了它的AI模型Gemini能如何识别放在它面前的物体，从一只蓝色橡胶鸭到多种手画图案（后来虽然被发现视频经过了巧妙剪辑，夸大了其能力）。

接着，当那位男士问：“我能吃点什么吗？”时，“Figure 01”抓起桌上唯一可食用的物体——那颗苹果，递给了他。

呃，难道威尔·史密斯不会突然出现吗？

“Figure 01”机器人是怎么运作的

究竟是什么技术让“Figure 01”能够如此流畅地与人互动？答案是一个新型的视觉语言模型（VLM），它让“Figure 01”从一个笨拙的金属块转变为了一个近乎科幻的、未来感十足且过于逼真的机器人。（这个VLM是OpenAI与“Figure 01”背后的创业公司Figure合作的成果。）在递出苹果之后，当被问到“为什么给我苹果，同时能捡起这个垃圾吗？”时，“Figure 01”展示了它可以同时执行多项任务。

它在辨别哪些是垃圾（哪些不是）的同时，将合适的物品放入它认为是垃圾桶的地方，并解释说之所以给那位男士一个苹果，是因为那是他面前唯一可以吃的东西。这真是令人印象深刻的多任务处理！

最后，那位男士询问“Figure 01”它自认为表现如何。“Figure 01”以一种类似对话的方式回答说：“我认为我做得挺好。苹果找到了新的主人，垃圾也被清理掉了，餐具也被放回了它们应该在的位置。”

根据Figure创始人Brett Adcock的说法，“Figure 01”装有摄像头，这些摄像头向VLM提供数据，帮助它“理解”眼前的场景，使得这个机器人能够与面前的人类顺利地进行互动。除了Adcock之外，“Figure 01”还是波士顿动力、特斯拉、谷歌Deep Mind和Archer Aviation等公司的几位核心成员的共同创造成果。