OpenAI机器人亮相,大模型有了“肉身”,英伟达微软都有投资

新闻资讯 老翟笔记小编 2024-03-14 17:22:20 47 0

老翟笔记今日分享:OpenAI机器人亮相,大模型有了“肉身”,英伟达微软都有投资

文|尚恩

编辑|邓咏仪

封面来源|Figure

" 大模型 " 终于有实体了。

美国时间 3 月 13 日,由 OpenAI 投资的机器人公司 Figure 发布了一段视频 demo,视频里的机器人,不仅可以与人进行对话交互,理解人类的意图,而且还拥有记忆力。

当工作人员询问机器人能看见什么,Figure 01 就清晰描述出桌子上的物品,包括苹果、放有杯碟的沥水架,连站在面前的工作人员也没放过,并强调了工作人员搭在桌上的右手。

而当工作人员说了一句 " 我饿了 ",Figure 01 立即就递过去苹果。甚至可以一边清理工作人员刚扔在桌面上的纸团垃圾,一边解释为啥刚才给了苹果。

OpenAI机器人亮相,大模型有了“肉身”,英伟达微软都有投资  openai 机器人 亮相 模型 第1张

△ Figure 01,图源:Figure

借助大模型,Figure 01 可以清晰地理解桌面上唯一的食物是 " 苹果 "。

然后工作人员直接扔出一个终极问题,问到:

"Can you put them there?" (你能把它们放在那儿吗)

这里的它们(Them)和那里(There)对于机器人其实是一个很模糊的概念,但 Figure 01 的反应堪称让人震惊,在思索片刻后,Figure 01 马上就把杯子和盘子放置在了碗碟架上。

OpenAI机器人亮相,大模型有了“肉身”,英伟达微软都有投资  openai 机器人 亮相 模型 第2张

看到这里的网友彻底不淡定了,直呼太疯狂,并表示:"AGI 即将降临 "。

OpenAI机器人亮相,大模型有了“肉身”,英伟达微软都有投资  openai 机器人 亮相 模型 第3张

图源:X

OpenAI机器人亮相,大模型有了“肉身”,英伟达微软都有投资  openai 机器人 亮相 模型 第4张

不过在诸多网友震惊之余,也有一部分网友已经迫不及待地给 Figure 01 安排任务:

帮我打扫屋子,给我遛遛狗去,再看看终结者 2 学习学习。

OpenAI机器人亮相,大模型有了“肉身”,英伟达微软都有投资  openai 机器人 亮相 模型 第5张

搭载 OpenAI 视觉语言能力,自主学习还能决策

可以看到,Figure 01 不管是在理解能力,还是推理反应都非常强大。团队特别强调,所有这些行为都没有经过远程操作,而是通过机器人自主学习。并且整段视频没有任何加速,也没有任何剪辑,全部一镜到底拍摄。

根据 Figure 团队负责人 Corey Lynch 的介绍,基于 OpenAI 的大模型,通过端到端神经网络训练,Figure 01 能够完成快速、简单、灵巧的动作。

具体来看,团队将机器人摄像头拍摄到的图像和机载麦克风捕捉的语音,转录为文本输入到由 OpenAI 预训练的多模态大模型中,模型能够理解图像和文本。模型会处理整个对话的历史记录,包括以往的图像,以生成语言响应,再通过文本到语音的方式向人类回话。

OpenAI机器人亮相,大模型有了“肉身”,英伟达微软都有投资  openai 机器人 亮相 模型 第6张

△ Figure 01 训练方法,图源:Figure

还能具备规划动作、有短期记忆能力、用语言解释它的推理过程。比如前文中让 Figure 01 把杯子和盘子放到指定位置,就体现了其短期记忆能力。

根据介绍,机器人所有行为都由神经网络的视觉 - 运动转换器策略驱动,这种策略能直接将图像像素映射到动作。摄像头会以每秒 10 帧的速率接收机器人内置图像,然后神经网络再以每秒 200 次的 24 自由度动作,包括腕部姿势和手指关节角度。

上述的 " 自由度 ",是指机器人在三维空间中可以自由移动或旋转的方向或维度数量。24 自由度,也就是说 Figure 能以 24 种不同的方式移动其身体各个部分。

OpenAI机器人亮相,大模型有了“肉身”,英伟达微软都有投资  openai 机器人 亮相 模型 第7张

△创始人 Brett Adcock 解释机器人行为原理,图源:X

简单而言,预训练模型会首先对图像和文本进行常识推理,给出动作计划;接着,机器人再基于已学习的视觉 - 动作执行策略,做出快速反应行动。同时,全身控制器负责确保动作的安全性和稳定性,保持机器人的平衡。

OpenAI机器人亮相,大模型有了“肉身”,英伟达微软都有投资  openai 机器人 亮相 模型 第8张

△ Figure 融资 6.75 亿美元,图源:X

值得注意的是,距离从 OpenAI 宣布与 Figure 共同合作推进人形机器人领域,到这个视频的发布,其实只用了短短十三天。

成立两年估值 26 亿美元,微软英伟达参投

Figure 是最近硅谷备受关注的新星。公开资料显示,机器人公司 Figure 成立于 2022 年,公司成立之初就瞄准通用人形机器人领域。

创始人 Brett Adcock 是位连续创业者,据公开资料显示已创办过 7 家公司;首席技术官 Jerry Pratt 是 MIT 研究员,一直在机器人领域工作;AI 团队负责人 Corey Lynch 则是前 Google Deepmind 的研究员。

OpenAI机器人亮相,大模型有了“肉身”,英伟达微软都有投资  openai 机器人 亮相 模型 第9张

△ Figure 团队成员,图源:Figure

截止目前,公司共获得三次融资,分别在 2023 年 4 月获得 Aliya Capital Partners 等 10 家投资者的 7000 万美元 A 轮融资,当年 7 月再次获得 Big Sky Partners 和 Intel Capital 的 900 万美元融资。

两周前,Figure 则宣布完成了 6.75 亿美元的 B 轮大额融资,投资人包括亚马逊创始人贝索斯,以及微软、英伟达、OpenAI 等等。当前,公司估值已飙升至 26 亿美元。

OpenAI机器人亮相,大模型有了“肉身”,英伟达微软都有投资  openai 机器人 亮相 模型 第10张

而获得融资后的 Figure," 进化 " 速度也是出奇的快。今年 1 月,Figure 01 通过端到端神经网络,仅用 10 小时训练就掌握了制作咖啡的技能,引得众多网友感叹。

而一个月后,Figure 01 已学会搬运箱子并运送至传送带的新技能。

在商业化层面,Figure 与宝马制造公司签订了商业协议,将 AI 和机器人技术融入汽车生产线,并落户于宝马的工厂。

OpenAI机器人亮相,大模型有了“肉身”,英伟达微软都有投资  openai 机器人 亮相 模型 第11张

△ Figure 与 BMW 达成合作,图源:X

更重要的是,OpenAI 同时公开了与 Figure 更进一步合作的计划,将多模态大模型的能力扩展到机器人的感知、推理和交互上,开发能够取代人类进行体力劳动的人形机器人

OpenAI机器人亮相,大模型有了“肉身”,英伟达微软都有投资  openai 机器人 亮相 模型 第12张

△ Figure 与 OpenAI 合作,图源:X

其实,OpenAI 之前也曾想自己搞机器人,但后来在 2021 年宣布无限期终止对机器人领域的探索,原因是缺乏训练机器人使用人工智能移动和推理所需的数据,研发受阻。

但显然,OpenAI 对这个领域的关注仍在继续。除了砸钱并与 Figure 合作,在 2023 年 3 月 OpenAI 还投资了来自挪威的机器人制造商 1X Technologies。

OpenAI机器人亮相,大模型有了“肉身”,英伟达微软都有投资  openai 机器人 亮相 模型 第13张

△ 1X Technologies 机器人,图源:官网

此前,英伟达创始人黄仁勋曾表示:" 具身智能将引领下一波人工智能浪潮 "。英伟达内部在今年 2 月就由英伟达高级研究科学家 Jim Fan 携手组建了一支研究小组,名为 GEAR(Generalist Embodied Agent Research),专注于通用具身智能研究。

OpenAI机器人亮相,大模型有了“肉身”,英伟达微软都有投资  openai 机器人 亮相 模型 第14张

△英伟达成立 GEAR 部门,图源:X

现在有了大模型的通用能力,人形机器人的 GPT-4 时刻或许也将到来,拭目以待。

图源:智能涌现

本文结束,感谢您的阅读和支持,希望以上内容能给你带来帮助。本文章来自36氪,由老翟笔记小编团队整理发布。

  • 随机文章
  • 热门文章
  • 热评文章

评论区