O Google DeepMind, na terça-feira, introduziu um novo modelo de idioma chamado Gemini Robotics no dispositivo. A empresa revelou que o modelo pode executar tarefas localmente em robôs sem uma conexão com a Internet.
O novo modelo, que se baseia no modelo anterior da empresa Gemini Robotics IA, lançado em março, pode controlar os movimentos de um robô. O Google também reconheceu que o Modelo de Ação de Languagem da Visão (VLA) é pequeno e eficiente o suficiente para ser executado diretamente em um robô. Segundo a empresa, os desenvolvedores podem controlar e ajustar o modelo para atender a várias necessidades usando os avisos de linguagem natural.
Estamos trazendo IA poderosa diretamente para os robôs com a Gemini Robotics no dispositivo. 🤖
É o nosso primeiro modelo de ação em linguagem de visão para ajudar a tornar os robôs mais rápidos, altamente eficientes e adaptáveis a novas tarefas e ambientes-sem precisar de uma conexão constante à Internet. 🧵 pic.twitter.com/1y21d3cf5t
- Google DeepMind (@Googledeepmind) 24 de junho de 2025
O chefe de robótica do Google Deepmind, Carolina Parada, sustentou que o modelo original de Gemini Robotics usa uma abordagem híbrida, permitindo que ele opere no dispositivo e na nuvem. Ela disse que, com o novo modelo somente de dispositivo, os usuários podem acessar recursos offline quase tão bem quanto os principais.
A empresa de tecnologia afirma que o modelo é executado em um nível próximo ao modelo de robótica Gemini baseado em nuvem em benchmarks. O Google também disse que supera outros modos no dispositivo nos benchmarks gerais, embora não tenha nomeado esses modelos.
"O modelo híbrido Gemini Robotics ainda é mais poderoso, mas estamos realmente surpresos com atroncomo é esse modelo de dispositivo.
-Carolina Parada, chefe de robótica do Google Deepmind.
A empresa ilustrou os robôs de demonstração que executa o modelo local, descompactando sacolas e roupas dobráveis. O Google reconheceu que, embora o modelo tenha sido treinado para os robôs Aloha, mais tarde o adaptou para trabalhar em um robô Bi-Arma Franka FR3 e o Robot Apollo Humanóide pelo ApptronIK.
A empresa de tecnologia afirma que o Bi-Arm Franka FR3 foi bem-sucedido em combater cenários e objetos que nunca tinha visto antes, como fazer montagem em um cinto industrial. A empresa mencionou que os desenvolvedores podem mostrar aos robôs 50 a 100 demonstrações de tarefas para treiná -las em novas tarefas usando os modelos no simulador de física do Mujoco.
O Google DeepMind também mencionou o lançamento de um kit de desenvolvimento de software chamado Gemini Robotics SDK. A empresa revelou que seu Robotics SDK fornece ferramentas completas de ciclo de vida necessárias para o uso de modelos de robótica Gemini, incluindo o acesso a pontos de verificação, servir um modelo, avaliar o modelo no robô e no SIM, fazer upload de dados e ajustá-lo. A empresa divulgou que seu modelo de robótica Gemini no dispositivo e seu SDK estarão disponíveis para um grupo de testadores confiáveis, enquanto o Google continua trabalhando para minimizar os riscos de segurança.
Outras empresas que usam modelos de IA também estão demonstrando interesse na robótica. A Nvidia está construindo uma plataforma para criar modelos fundamentais para humanóides. O CEO da empresa, Jensen Huang, observou que os modelos de fundação para a construção de robôs humanóides em geral são um dos problemas mais emocionantes a serem resolvidos hoje na IA.
Huang argumentou que o fator humanóide é um dos tópicos mais contestados do mundo da robótica no momento. Ele reconheceu que está aumentando o capital de risco pela carga de barco, gerando um ceticismo maciço ao longo do caminho.
A Nvidia também tem defendido a inovação robótica por meio de iniciativas como Isaac e Jetson. No ano passado, em março, em sua conferência anual de desenvolvedores da GTC, a empresa ingressou na corrida humanóide com o Project Groot.
A NVIDIA se referiu à nova plataforma como um modelo de fundação de uso geral para robôs humanóides. A empresa disse que a Groot também apoiará novos hardware da Nvidia.
Abraçar o rosto não está apenas desenvolvendo modelos e conjuntos de dados abertos para robótica, mas também está trabalhando em robôs. A empresa revelou no início deste mês um modelo Openai para robótica chamado Smolvla.
A empresa afirma que o modelo é treinado em conjuntos de dados compartilhados da comunidade e supera modelos muito maiores para robótica em ambientes virtuais e no mundo real. O rosto abraçado também revelou que Smolvla visa democratizar o acesso aos modelos de ação de visão de visão (VLA) e acelerar pesquisas para agentes robóticos generalistas.
No ano passado, a empresa lançou o Lerobot, uma coleção de modelos, conjuntos de dados e ferramentas focados em robótica. Mais recentemente, abraçar a robótica de pólen adquirida no rosto, uma startup de robótica com sede na França, e revelou vários sistemas de robótica baratos, incluindo humanóides, para compra.
Suas notícias criptográficas merecem atenção - o fio de diferença -chave coloca você em mais de 250 sites superiores