O GPT-Realtime-2 traz a inteligência do GPT-5 para a API de voz
- O CEO Ripple Brad Garlinghouse, se opõe à ideologia maximalista XRP
- O ouro atinge nova alta semanal e mira os US$ 4.600, com o dólar americano enfraquecendo devido às esperanças de um acordo de paz entre os EUA e o Irã
- Cathie Woods prevê que o mercado de criptomoedas atingirá US$ 28 trilhões, com o Bitcoin se mantendo acima de US$ 81 mil
- Baleia de Bitcoin liquida R$ 52 bilhões após 14 anos e movimenta o mercado
- Top 5 criptomoedas feitas na China para ficar de olho enquanto autoridades de Trump sinalizam abertura para negociações comerciais
- Elon Musk, CEO com um patrimônio vitalício de um trilhão de dólares, surge como um dos primeiros vencedores antes do IPO da SpaceX

A OpenAI lançou na quarta-feira uma nova geração de modelos de voz em sua API, fornecendo aos desenvolvedores ferramentas para criar aplicativos capazes de analisar solicitações faladas, traduzir entre mais de 70 idiomas e transcrever a fala em tempo real.
Os três modelos são chamados GPT-Realtime-2, GPT-Realtime-Translate e GPT-Realtime-Whisper. Eles levam as interfaces de voz com IA além de simples trocas de perguntas e respostas, para um território onde um agente de IA pode ouvir, pensar e agir durante a conversa.
O GPT-Realtime-2 traz um raciocínio mais preciso para a voz
O GPT-Realtime-2 é o carro-chefe. A OpenAI afirma que ele oferece raciocínio equivalente ao do GPT-5, um avanço significativo em relação ao seu antecessor, o GPT-Realtime-1.5.
O modelo obteve uma pontuação 15,2% superior no Big Bench Audio, um teste de referência para inteligência de áudio, e 13,8% superior no Audio MultiChallenge, que testa o seguimento de instruções em diálogos falados com múltiplas interações.
As melhorias práticas são direcionadas a desenvolvedores que criam agentes de voz para produção. O modelo agora suporta uma janela de contexto de 128 mil caracteres, quatro vezes maior que o limite anterior de 32 mil, e oferece cinco níveis de esforço de raciocínio ajustável, de "mínimo" a "extremamente alto"
Ele pode chamar várias ferramentas simultaneamente, recuperar-se de erros com confirmações de voz e produzir frases curtas de transição, como "deixe-me verificar isso", durante o processamento de uma solicitação.
O GPT-Realtime-Translate realiza a tradução de fala em tempo real. Ele aceita mais de 70 idiomas de entrada e produz traduções em 13, projetado para acompanhar o ritmo do falante em tempo real.
O GPT-Realtime-Whisper oferece conversão de fala em texto (STT) em tempo real, transcrevendo as palavras à medida que são faladas, em vez de esperar que a frase seja concluída.
Zillow e Deutsche Telekom testam os modelos em produção
Diversas empresas tiveram acesso antecipado. A Zillow está desenvolvendo um assistente de voz capaz de processar consultas complexas sobre imóveis, gerenciar chamadas de ferramentas para busca de anúncios e estar em conformidade com as regulamentações de Habitação Justa.
A empresa reportou uma melhoria de 26 pontos percentuais na taxa de sucesso das chamadas em seu benchmark adversário mais difícil, após otimização imediata com o GPT-Realtime-2, atingindo 95% em comparação com os 69% anteriores.
A Deutsche Telekom está testando a tradução em tempo real para o suporte ao cliente, permitindo que os usuários falem em seu idioma preferido enquanto o sistema cuida da conversão em ambas as partes.
A Priceline está explorando um assistente de viagens baseado em voz que poderá gerenciar buscas de voos, alterações de hotéis e traduções no local em uma única sessão.
Os modelos são direcionados a empresas que buscam expandir suas capacidades de atendimento ao cliente, mas também apontam aplicações potenciais em educação, mídia, eventos e plataformas para criadores de conteúdo.
A OpenAI afirmou ter incorporado moderação de conteúdo aos novos modelos, com gatilhos que podem interromper conversas detectadas como violando as diretrizes de conteúdo prejudicial. A empresa apresentou as medidas de segurança como proteção contra spam, fraude e outras formas de abuso.
Em relação aos preços, os modelos Translate e Whisper são cobrados por minuto. O GPT-Realtime-2 é cobrado por consumo de tokens. Os três estão disponíveis através da API Realtime da OpenAI, acessível via WebRTC, WebSocket e SIP.
Leia mais
Isenção de responsabilidade: este artigo representa apenas a opinião do autor e não pode ser usado como consultoria de investimento. O conteúdo do artigo é apenas para referência. Os leitores não devem tomar este artigo como base para investimento. Antes de tomar qualquer decisão de investimento, procure orientação profissional independente para garantir que você entenda os riscos.
Os Contratos por Diferença (CFDs) são produtos alavancados que podem resultar na perda de todo o seu capital. Esses produtos não são adequados para todos os clientes; por favor, invista com rigor. Consulte este arquivo para obter mais informações.



