OpenAI机器人亮相,大模型有了“肉身”,英伟达微软都有投资
老翟笔记今日分享:OpenAI机器人亮相,大模型有了“肉身”,英伟达微软都有投资
文|尚恩
编辑|邓咏仪
封面来源|Figure
" 大模型 " 终于有实体了。
美国时间 3 月 13 日,由 OpenAI 投资的机器人公司 Figure 发布了一段视频 demo,视频里的机器人,不仅可以与人进行对话交互,理解人类的意图,而且还拥有记忆力。
当工作人员询问机器人能看见什么,Figure 01 就清晰描述出桌子上的物品,包括苹果、放有杯碟的沥水架,连站在面前的工作人员也没放过,并强调了工作人员搭在桌上的右手。
而当工作人员说了一句 " 我饿了 ",Figure 01 立即就递过去苹果。甚至可以一边清理工作人员刚扔在桌面上的纸团垃圾,一边解释为啥刚才给了苹果。
△ Figure 01,图源:Figure
借助大模型,Figure 01 可以清晰地理解桌面上唯一的食物是 " 苹果 "。
然后工作人员直接扔出一个终极问题,问到:
"Can you put them there?" (你能把它们放在那儿吗)
这里的它们(Them)和那里(There)对于机器人其实是一个很模糊的概念,但 Figure 01 的反应堪称让人震惊,在思索片刻后,Figure 01 马上就把杯子和盘子放置在了碗碟架上。
看到这里的网友彻底不淡定了,直呼太疯狂,并表示:"AGI 即将降临 "。
图源:X
不过在诸多网友震惊之余,也有一部分网友已经迫不及待地给 Figure 01 安排任务:
帮我打扫屋子,给我遛遛狗去,再看看终结者 2 学习学习。
搭载 OpenAI 视觉语言能力,自主学习还能决策
可以看到,Figure 01 不管是在理解能力,还是推理反应都非常强大。团队特别强调,所有这些行为都没有经过远程操作,而是通过机器人自主学习。并且整段视频没有任何加速,也没有任何剪辑,全部一镜到底拍摄。
根据 Figure 团队负责人 Corey Lynch 的介绍,基于 OpenAI 的大模型,通过端到端神经网络训练,Figure 01 能够完成快速、简单、灵巧的动作。
具体来看,团队将机器人摄像头拍摄到的图像和机载麦克风捕捉的语音,转录为文本输入到由 OpenAI 预训练的多模态大模型中,模型能够理解图像和文本。模型会处理整个对话的历史记录,包括以往的图像,以生成语言响应,再通过文本到语音的方式向人类回话。
△ Figure 01 训练方法,图源:Figure
还能具备规划动作、有短期记忆能力、用语言解释它的推理过程。比如前文中让 Figure 01 把杯子和盘子放到指定位置,就体现了其短期记忆能力。
根据介绍,机器人所有行为都由神经网络的视觉 - 运动转换器策略驱动,这种策略能直接将图像像素映射到动作。摄像头会以每秒 10 帧的速率接收机器人内置图像,然后神经网络再以每秒 200 次的 24 自由度动作,包括腕部姿势和手指关节角度。
上述的 " 自由度 ",是指机器人在三维空间中可以自由移动或旋转的方向或维度数量。24 自由度,也就是说 Figure 能以 24 种不同的方式移动其身体各个部分。
△创始人 Brett Adcock 解释机器人行为原理,图源:X
简单而言,预训练模型会首先对图像和文本进行常识推理,给出动作计划;接着,机器人再基于已学习的视觉 - 动作执行策略,做出快速反应行动。同时,全身控制器负责确保动作的安全性和稳定性,保持机器人的平衡。
△ Figure 融资 6.75 亿美元,图源:X
值得注意的是,距离从 OpenAI 宣布与 Figure 共同合作推进人形机器人领域,到这个视频的发布,其实只用了短短十三天。
成立两年估值 26 亿美元,微软英伟达参投
Figure 是最近硅谷备受关注的新星。公开资料显示,机器人公司 Figure 成立于 2022 年,公司成立之初就瞄准通用人形机器人领域。
创始人 Brett Adcock 是位连续创业者,据公开资料显示已创办过 7 家公司;首席技术官 Jerry Pratt 是 MIT 研究员,一直在机器人领域工作;AI 团队负责人 Corey Lynch 则是前 Google Deepmind 的研究员。
△ Figure 团队成员,图源:Figure
截止目前,公司共获得三次融资,分别在 2023 年 4 月获得 Aliya Capital Partners 等 10 家投资者的 7000 万美元 A 轮融资,当年 7 月再次获得 Big Sky Partners 和 Intel Capital 的 900 万美元融资。
两周前,Figure 则宣布完成了 6.75 亿美元的 B 轮大额融资,投资人包括亚马逊创始人贝索斯,以及微软、英伟达、OpenAI 等等。当前,公司估值已飙升至 26 亿美元。
而获得融资后的 Figure," 进化 " 速度也是出奇的快。今年 1 月,Figure 01 通过端到端神经网络,仅用 10 小时训练就掌握了制作咖啡的技能,引得众多网友感叹。
而一个月后,Figure 01 已学会搬运箱子并运送至传送带的新技能。
在商业化层面,Figure 与宝马制造公司签订了商业协议,将 AI 和机器人技术融入汽车生产线,并落户于宝马的工厂。
△ Figure 与 BMW 达成合作,图源:X
更重要的是,OpenAI 同时公开了与 Figure 更进一步合作的计划,将多模态大模型的能力扩展到机器人的感知、推理和交互上,开发能够取代人类进行体力劳动的人形机器人。
△ Figure 与 OpenAI 合作,图源:X
其实,OpenAI 之前也曾想自己搞机器人,但后来在 2021 年宣布无限期终止对机器人领域的探索,原因是缺乏训练机器人使用人工智能移动和推理所需的数据,研发受阻。
但显然,OpenAI 对这个领域的关注仍在继续。除了砸钱并与 Figure 合作,在 2023 年 3 月 OpenAI 还投资了来自挪威的机器人制造商 1X Technologies。
△ 1X Technologies 机器人,图源:官网
此前,英伟达创始人黄仁勋曾表示:" 具身智能将引领下一波人工智能浪潮 "。英伟达内部在今年 2 月就由英伟达高级研究科学家 Jim Fan 携手组建了一支研究小组,名为 GEAR(Generalist Embodied Agent Research),专注于通用具身智能研究。
△英伟达成立 GEAR 部门,图源:X
现在有了大模型的通用能力,人形机器人的 GPT-4 时刻或许也将到来,拭目以待。
图源:智能涌现
本文结束,感谢您的阅读和支持,希望以上内容能给你带来帮助。本文章来自36氪,由老翟笔记小编团队整理发布。
- 随机文章
- 热门文章
- 热评文章
- zblog文章tag标签怎么添加?标签代码怎么写?
- RSSWorker使用教程 – 可为B站、微博用户、TG、小红书用户生成 RSS订阅
- 天涯社区被申请破产,创始人曾表明今年重启
- 全新Siri要来了!库克:苹果今年将在生成式人工智能领域开辟新天地
- 涉快递收取、互免签证、食品安全……一批新规3月起施行
- 比特币市场近18万人被爆仓:爆仓总金额7.3亿美元
- 离谱!应急车道插队被拒 两男子竟在高速上追车踢打
- 为SU7上市做准备!小米公开招募家充上门服务商