A OpenAI lançou na quarta-feira uma nova geração de modelos de voz em sua API, fornecendo aos desenvolvedores ferramentas para criar aplicativos capazes de analisar solicitações faladas, traduzir entre mais de 70 idiomas e transcrever a fala em tempo real.
Os três modelos são chamados GPT-Realtime-2, GPT-Realtime-Translate e GPT-Realtime-Whisper. Eles levam as interfaces de voz com IA além de simples trocas de perguntas e respostas, para um território onde um agente de IA pode ouvir, pensar e agir durante a conversa.
O GPT-Realtime-2 é o carro-chefe. A OpenAI afirma que ele oferece raciocínio equivalente ao do GPT-5, um avanço significativo em relação ao seu antecessor, o GPT-Realtime-1.5.
O modelo obteve uma pontuação 15,2% superior no Big Bench Audio, um teste de referência para inteligência de áudio, e 13,8% superior no Audio MultiChallenge, que testa o seguimento de instruções em diálogos falados com múltiplas interações.
As melhorias práticas são direcionadas a desenvolvedores que criam agentes de voz para produção. O modelo agora suporta uma janela de contexto de 128 mil caracteres, quatro vezes maior que o limite anterior de 32 mil, e oferece cinco níveis de esforço de raciocínio ajustável, de "mínimo" a "extremamente alto"
Ele pode chamar várias ferramentas simultaneamente, recuperar-se de erros com confirmações de voz e produzir frases curtas de transição, como "deixe-me verificar isso", durante o processamento de uma solicitação.
O GPT-Realtime-Translate realiza a tradução de fala em tempo real. Ele aceita mais de 70 idiomas de entrada e produz traduções em 13, projetado para acompanhar o ritmo do falante em tempo real.
O GPT-Realtime-Whisper oferece conversão de fala em texto (STT) em tempo real, transcrevendo as palavras à medida que são faladas, em vez de esperar que a frase seja concluída.
Diversas empresas tiveram acesso antecipado. A Zillow está desenvolvendo um assistente de voz capaz de processar consultas complexas sobre imóveis, gerenciar chamadas de ferramentas para busca de anúncios e estar em conformidade com as regulamentações de Habitação Justa.
A empresa reportou uma melhoria de 26 pontos percentuais na taxa de sucesso das chamadas em seu benchmark adversário mais difícil, após otimização imediata com o GPT-Realtime-2, atingindo 95% em comparação com os 69% anteriores.
A Deutsche Telekom está testando a tradução em tempo real para o suporte ao cliente, permitindo que os usuários falem em seu idioma preferido enquanto o sistema cuida da conversão em ambas as partes.
A Priceline está explorando um assistente de viagens baseado em voz que poderá gerenciar buscas de voos, alterações de hotéis e traduções no local em uma única sessão.
Os modelos são direcionados a empresas que buscam expandir suas capacidades de atendimento ao cliente, mas também apontam aplicações potenciais em educação, mídia, eventos e plataformas para criadores de conteúdo.
A OpenAI afirmou ter incorporado moderação de conteúdo aos novos modelos, com gatilhos que podem interromper conversas detectadas como violando as diretrizes de conteúdo prejudicial. A empresa apresentou as medidas de segurança como proteção contra spam, fraude e outras formas de abuso.
Em relação aos preços, os modelos Translate e Whisper são cobrados por minuto. O GPT-Realtime-2 é cobrado por consumo de tokens. Os três estão disponíveis através da API Realtime da OpenAI, acessível via WebRTC, WebSocket e SIP.
Não se limite a ler notícias sobre criptomoedas. Compreenda-as. Assine nossa newsletter. É grátis.