Figure 01视频被质疑“注水”？看看创始人怎么说！

2024-03-15 17:09

引言

2023年3月，一家仅创立几个月的机器人公司号称要推出“世界上第一个商业上可行的通用人形机器人”，并放出了几张PPT。

接下来的一年中，这家名为Figure的公司经历了——被质疑“碰瓷波士顿动力”——创纪录地迈出人形机器人“动态双足行走”第一步——半个硅谷科技圈下注，融资高达6．75 亿美元，估值猛涨至26亿美元。

本周三，仅在B轮融资完成后的13天，这位“当红炸子鸡”放出了Figure 01的最新视频。

虽然只用到了一个“端到端”神经网络，但Figure 01却可以在你想要食物时，贴心地递上苹果而不是盘子；还能一边回答你的问题，一边对物品进行分类——将垃圾收拾进框子里、将杯子和盘子归置放在沥水架上。而且！它甚至能回答你餐具沥干水分的大致时间。

有人说，Figure只用了1年时间，就走完了波士顿动力20多年的路。于是，压力给到了波士顿动力，让我们回到实验室，再扒一些女团舞吧（bushi）。

话说回来，Figure 01的最新视频有没有一丝丝“注水”的可能性？难道传说中“世界上第一个具身智能”机器人真的来了？！

Figure创始人Brett Adcock特意在X上强调，视频是以1．0倍速度拍摄并连续拍摄的，机器人是在完全自主的情况下进行的行为，没有远程操作。

言外之意就是“无剪辑，无加速，一镜到底”。

然而，适道和一些相关领域投资人交流时，获得了另一条思路：有没有一种可能——Figure 01的完美表现是“试”出来的。

例如在测试阶段，当你说“我饿了”并指向“苹果和碗”，Figure 01会递给你碗；当你指着“梨子和盘子”，Figure 01会递给你盘子。可能试了一大通后，得出面对“苹果和盘子”组合，Figure 01的表现是最好的。

但在适道看来，与其说这是“注水”，不如说这正是Figure神速进化的技术秘籍——“端到端”技术黑盒。

01 Figure进步神速的秘籍——“端到端”神经网络

根据Brett Adcock的说法，Figure 01主要通过“端到端”神经网络来与人类进行对话。大致流程为：OpenAI的LLM提供“大脑”——视觉推理和语言理解；Figure神经网络提供“小脑”——做出一系列快速、低级、灵巧的机器人动作。

Figure机器人操作高级AI工程师Corey Lynch进一步解释：“这些神经网络以每秒 10 帧的速率接收机器人内置图像，并能生成每秒200次的24自由度动作（包括腕部姿势和手指关节角度）”

何为“端到端”？

“端到端”（End－to－End）是深度学习中的概念，指一个AI模型，只要输入原始数据，就能输出最终结果，有点像马斯克遵循的“第一性原理”。

举个简单的例子，两个同龄小孩，一个生活在城市，一个从小长在河边。城市小孩想学游泳，需要找教练，进行一系列抱水、换气、划水、蹬腿的分解动作，才能系统性地掌握蛙泳技能；而在河边长大的小孩，看了大人们游泳的姿势，就去下河摸索，经历了呛水、训练、强化，也学会了游泳，而且游得像鱼一样娴熟。

如果你要问这个小孩经历了哪些针对性训练，都有什么训练模块，他一定答不出所以然。但从结果来讲，他不仅泳技超群，甚至学习时间还可能更少。

“端到端”的原理跟这个例子有点类似。

例如，想让机器人变成“咖啡师”，如果通过传统编程，虽然看起来“透明”“可解释”，但代码非常复杂，灵活性也很差。

而Figure 01的卓越表现证明了，通过这种“不可解释”的“端到端”神经网络（输入视频、输出行动轨迹），机器人能够在数小时训练后就能get新技能。

在1月5日的视频，Figure 01展示了自己出色的“学霸”能力，只需观看10小时的人类煮咖啡录像，就能学会人类的动作和手势，并通过模仿这些动作，成为一名real咖啡师。

而“端到端”也正在成为机器人训练的主流路子。例如，1X EVE 、Digit同样是通过“端到端”学习新技能。

由此不难得出，虽然目前Figure 01展示的只是做咖啡、物品分类，但理论上，只要获取到人类的数据，进行“端到端”地训练，它就能掌握更多技能。

我们再回到被“质疑”的“苹果和盘子组合”——即便Figure 01的完美表现是“试出来”的，但随着“端到端”训练量加大，“试错”会越来越少，成功率越来越高，最终Figure 01或许真能轻松拿捏家务，说不定还会在你喊饿时包出一顿饺子。

这一切正如创始人Brett Adcock所言：机器人就像我的孩子们一样，在他们学习做某件事的过程中，尽管可能失败了很多次，但他们一旦掌握了就不会忘记，然后他们会不断积累新的技能。

02 创始人：人形机器人成本会低于一台廉价电动汽车

Figure的创始人Brett Adcock年仅38岁，但Figure已经是他创立的第三家科技公司。在去年10月的一次访谈中，Brett 分享了 Figure 01的设计过程，以及他对于通用人形机器人领域的预测。

Brett 认为人形机器人研发一定是软硬件一体的过程，LLM 为机器人提供了强大的大脑，是软件层面的重要补足，而硬件角度，几乎没有成熟的供应链可供使用，因此，Brett要求团队在设计产品的同时就要考虑到机器人重量、计算处理、现实环境等细节。

适道也对访谈进行了原文编译和节选，请配合食用。

1、简单介绍一下 Figure，你们的使命和目标是什么？

Brett：Figure 是一家 AI机器人公司，专注于设计自动通用人形机器人（Autonomous General－purpose Humanoids）。自动通用人形机器人是指具备自主能力，能够自动执行多种任务，并且在外观和行为上类似于人类的机器人。我们的目标是在长期能够部署和人类数量一样多的人形机器人，让体力劳动成为一种选择而非必然。

我们的远期计划是在全球部署 100 亿个人形机器人。未来 1－2 年内，我们的重点将放在开发具有里程碑意义的产品上，希望在未来一两年内，能向公众展示大量人形机器人产品的研发成果，包括 AI 系统、低级控制（Low－Level Control）等，最终展示能在日常生活中发挥作用的机器人。

2、如果能成功降低制造成本、提高生产量，一个功能完善的人形机器人制作成本能降低多少？

Brett：如果我们回顾消费品或汽车行业的发展历史时，可以看到产品的价格与生产量之间存在强相关。根据经验曲线（Experience Curve），每当生产数量翻倍，产品的价格或成本就可能下降 20％或 30％。因此，我们可以认为价格取决于生产量。

这个原理同样适用于人形机器人的生产。目前，一个人形机器人大约有 1000 个零件，重量约为 150 磅（68 公斤）。相比之下，一个电动汽车可能有大约 1 万个零件，重量可能在 4000－5000 磅（1800－2250 公斤）之间。

从长期来看，一个人形机器人的成本应该低于一台廉价电动汽车。这主要取决于机器人的执行器、电机组件、传感器的成本以及计算成本。

3、你们打算训自己的模型，还是集成其他模型？

Brett：要让人形机器人从工厂走进家庭，关键在于语言，所以 LLM 或视觉语言模型对我们的业务帮助很大。我们要让机器人能够从语义层面理解世界，做到理解和回应用户的需求和指令，恰好 LLM 可以做到这点。

因此，我们会逐步将视觉语言模型加入机器人的研发过程，从高层次的行为角度来帮助人形机器人理解人类在说什么，让它能与人类进行对话，同时推断和理解人们在说什么以做出回应。

我们很可能不会自己训模型，但我们可以在机器人系统上训练视觉语言模型，关联传感器数据。

打造一个正确的 AI 数据引擎对我们来说非常重要，它能确保我们对机器人产生的数据进行准确的训练，对神经网络进行正确的训练，以便未来能够有效地部署和使用。这也是驱动我们尽快让产品进入市场的动力，我们希望将更多的机器人投放市场，收集数据，从而让我们未来的机器人队伍将变得更加智能、学会更多技能。

4、为什么需要软硬件一体开发？

Brett：如果算上做控制系统（control）、中间件（middleware）和自主决策与行动能力（autonomy）的人，我们的软件占比会比硬件稍微多一些，因为硬件团队的员工只有 15 个左右，软件规模要明显大一些。

长远来看，软件会成为公司最大的业务板块。Figure 作为一家专注于 AI 的公司，以后会有一个庞大的 autonomy 团队，并且研发出关键的 AI 数据引擎。

但硬件方面也同样重要。如果我们真的想做出实现高性能、高可靠性、高安全性和低成本的人形机器人，就需要开发自己的执行器、电子设备、电池和几乎所有软件，因为这些都没有现成的解决方案。

长时间从事软件开发再进入硬件领域是真的很困难，研发硬件需要经过一个漫长的迭代周期，这也是我们受挫的主要因素。

5、人形机器人的潜在大市场在哪里？何时出现？

Brett：我们计划先在未来十几年内持续扩大在商业劳动力市场的规模。我们关注的领域包括医疗保健、房地产、建筑和零售等，我相信这些领域都有巨大的市场潜力。

另外，还有一些市场尚未应用人形机器人，比如房地产。科技房地产公司开发的在线平台可以使用人形机器人来代替人类经纪人提供服务。人们可以通过访问网站预约看房，然后由人形机器人打开门迎接他们，在一个虚拟的房屋中全程介绍。这是一个价值数万亿美元的市场，但科技公司迄今为止还未涉足，因为目前房地产领域的工作仍然过于依赖人力。

此外，还有许多行业的工作可以通过远程操作或其他技术来完成，人形机器人可以为这些行业带来新的发展机会。

6、人形机器人会让人们失去工作吗？

Brett：我的观点是在接下来的 10－20 年里，机器人业务的发展将与自动驾驶汽车的发展路径类似。就像自动驾驶汽车，高速公路的测试视频会比城市街道的更早公开，是因为城市街道有更高的安全要求和更多的不确定性。

同样，人形机器人也会首先解决相对容易的问题，比如在预知环境和任务的情况下搬运货物。这类任务就像在高速公路上驾驶，相对简单易行。然而，更复杂的任务，例如在家中烹饪或照顾老年人，就像在城市街道上驾驶，更具挑战性。

尽管大家对人形机器人的期望往往集中在复杂任务的解决上，比如谷歌的机器人做垃圾分类，丰田研究院在杂货店等场景的研究，但这些都是非常困难的挑战。

我很高兴有这些研究，但从商业角度出发，我们的首要任务应该是解决那些简单但必要的问题，然后逐渐将 AI 数据引擎应用到更复杂的任务中。

所以，Figure 和其他研究团队关注的事情恰恰相反。我们的目标是在仓储制造领域应用人形机器人，这个领域的劳动力短缺问题最为严重。全球约一半的 GDP 来自劳动力，我们正在面对全球范围内的劳动力短缺问题。随着婴儿潮一代的退休和生育率的下降，这个问题将越来越严重。

原文标题： Figure 01视频被质疑“注水”？看看创始人怎么说