Google DeepMind周二推出了一种名为Gemini Robotics On Device的新语言模型。该公司透露,该模型可以在没有互联网连接的情况下在机器人上本地运行任务。
新模型建立在公司以前的Gemini机器人AI模型上,该模型在3月发布,可以控制机器人的动作。 Google还承认,视觉语言动作模型(VLA)小巧且高效,可以直接在机器人上运行。据该公司称,开发人员可以使用自然语言提示来控制和调整模型以适应各种需求。
我们将强大的AI直接带到具有双子座机器人技术的机器人上。 🤖
这是我们的第一个视觉语言动作模型,可帮助使机器人更快,高效且能够适应新任务和环境,而无需持续的互联网连接。 🧵pic.twitter.com /1Y21D3CF5T
- 2025年6月24日
Carolina Parada的Google Deepmind的机器人技术负责人坚持认为,原始的Gemini Robotics模型使用了混合方法,使其可以在设备上和云上操作。她说,使用新的仅设备模型,用户几乎可以访问离线功能以及旗舰功能。
该科技公司声称该模型在基于云的Gemini Robotics模型的水平上执行。 Google还表示,在一般基准测试中,它表现优于其他设备模式,尽管它没有命名这些型号。
“双子座机器人的混合模型仍然更加强大,但实际上,我们对这种设备模型的tron感到非常惊讶。我将其视为启动器模型,也可以作为仅连接性较差的应用程序的模型。”
-Carolina Parada,Google DeepMind的机器人技术负责人。
该公司在运行本地型号的演示机器人中进行了说明,解压缩袋子和折叠衣服。 Google承认,虽然该模型接受了Aloha机器人的培训,但后来它将其改编为ApptronIK在Bi-Arm-Arm Franka FR3机器人和Apollo Hubrot机器人上工作。
这家科技公司声称,双臂Franka FR3成功地解决了以前从未见过的场景和对象,例如在工业带上进行组装。该公司提到,开发人员可以使用Mujoco Physics Simulator上的模型向机器人展示50至100个任务的示范,以训练他们的新任务。
Google DeepMind还提到了一个名为Gemini Robotics SDK的软件开发套件的发布。该公司透露,其机器人SDK提供了使用Gemini机器人模型所需的完整生命周期工具,包括访问检查站,提供模型,评估机器人和SIM卡上的模型,上传数据并进行微调。该公司透露,在Google继续致力于最大程度地降低安全风险的同时,其在设备上的Gemini机器人技术模型及其SDK将提供给一组受信任的测试人员。
其他使用AI模型的公司也表现出对机器人技术的兴趣。 Nvidia正在建立一个平台,以创建人形生物的基础模型。该公司的首席执行官詹森·黄(Jensen Huang)指出,为普通类人机器人建立基础模型是当今AI中最令人兴奋的问题之一。
黄认为,类人动物因素是目前世界上最有争议的主题之一。他承认,这正在通过船上筹集风险投资,同时在此过程中引起了极大的怀疑。
Nvidia还通过Isaac和Jetson等倡议来倡导机器人创新。去年3月,在其年度GTC开发人员会议上,该公司加入了人形竞赛。
Nvidia将新平台称为人形机器人的通用基础模型。该公司表示,Groot也将支持Nvidia的新硬件。
拥抱面孔不仅开发了用于机器人技术的开放模型和数据集,而且还在机器人上工作。该公司本月初透露了
该公司声称,该模型在社区共享的数据集上进行了培训,并且在虚拟和现实环境中的机器人技术均优于更大的模型。拥抱的脸还表明,Smolvla的目标是使访问视觉行动(VLA)模型民主化,并加速对通才机器人的代理商的研究。
去年,该公司推出了Lerobot,这是一系列以机器人技术为中心的模型,数据集和工具。最近,Hugging Face收购了一家位于法国的机器人技术初创公司的花粉机器人技术,并揭示了包括类人类机器人的几种廉价机器人系统供购买。
您的加密新闻值得关注 -关键差异使您进入250多个顶级网站