GPT-Realtime-2 incorpora la inteligencia de GPT-5 a la API de voz

Fuente Cryptopolitan

OpenAI lanzó el miércoles una nueva generación de modelos de voz en su API, proporcionando a los desarrolladores herramientas para crear aplicaciones capaces de interpretar solicitudes habladas, traducir a más de 70 idiomas y transcribir el habla en tiempo real.

Los tres modelos se denominan GPT-Realtime-2, GPT-Realtime-Translate y GPT-Realtime-Whisper. Estos modelos llevan las interfaces de voz con IA más allá de los simples intercambios de preguntas y respuestas, a un terreno donde un agente de IA puede escuchar, pensar y actuar en medio de una conversación.

GPT-Realtime-2 aporta un razonamiento más preciso a la voz

GPT-Realtime-2 es el producto estrella. OpenAI afirma que ofrece un razonamiento de la clase GPT-5, un avance significativo con respecto a su predecesor, GPT-Realtime-1.5.

El modelo obtuvo una puntuación un 15,2 % superior en Big Bench Audio, una prueba de referencia para la inteligencia auditiva, y un 13,8 % superior en Audio MultiChallenge, que evalúa la capacidad de seguir instrucciones en diálogos hablados de varios turnos.

Las mejoras prácticas están dirigidas a desarrolladores que crean agentes de voz para producción. El modelo ahora admite una ventana de contexto de 128 KB, cuadruplicando el límite anterior de 32 KB, y ofrece cinco niveles de esfuerzo de razonamiento ajustable, desde "mínimo" hasta "extremadamente alto"

Puede llamar a varias herramientas simultáneamente, recuperarse de errores con confirmaciones habladas y producir frases cortas de transición como "déjame comprobarlo" mientras procesa una solicitud.

GPT-Realtime-Translate gestiona la traducción de voz en directo. Acepta más de 70 idiomas de entrada y genera la salida en 13, y está diseñado para seguir el ritmo del hablante en tiempo real.

GPT-Realtime-Whisper proporciona conversión de voz a texto (STT) en tiempo real, transcribiendo las palabras a medida que se pronuncian en lugar de esperar a que se complete la frase.

Zillow y Deutsche Telekom prueban los modelos en producción

Varias empresas obtuvieron acceso anticipado. Zillow está desarrollando un asistente de voz capaz de procesar consultas inmobiliarias complejas, gestionar llamadas a herramientas para buscar anuncios y cumplir con las regulaciones de Vivienda Justa.

La compañía informó de una mejora de 26 puntos en la tasa de éxito de las llamadas en su prueba de referencia adversaria más difícil tras la optimización inmediata con GPT-Realtime-2, alcanzando el 95% en comparación con el 69% anterior.

Deutsche Telekom está probando la traducción en tiempo real para la atención al cliente, lo que permite a quienes llaman hablar en su idioma preferido mientras el sistema se encarga de la conversión en ambos extremos.

Priceline está estudiando la posibilidad de desarrollar un asistente de viajes basado en la voz que pueda gestionar búsquedas de vuelos, cambios de hotel y traducciones in situ en una sola sesión.

Estos modelos están dirigidos a empresas que buscan ampliar sus capacidades de atención al cliente, pero también señalan posibles aplicaciones en los sectores de educación, medios de comunicación, eventos y plataformas para creadores de contenido.

OpenAI afirmó haber integrado la moderación de contenido en sus nuevos modelos, con mecanismos que permiten detener las conversaciones que infrinjan las directrices sobre contenido dañino. La compañía explicó que estas medidas de seguridad protegen contra el spam, el fraude y otras formas de abuso.

En cuanto a precios, los modelos Translate y Whisper facturan por minuto. GPT-Realtime-2 factura por consumo de tokens. Los tres están disponibles a través de la API Realtime de OpenAI, accesible mediante conexiones WebRTC, WebSocket y SIP.

Si estás leyendo esto, ya llevas ventaja. Mantente al día con nuestro boletín informativo.

Descargo de responsabilidad: Sólo con fines informativos. Rentabilidades pasadas no son indicativas de resultados futuros.
placeholder
El precio del cobre está a punto de superar los $6 por libra: ¿Hasta dónde puede llegar en 2026?Una demanda creciente, sumada a los problemas en la cadena de suministro, están disparando al cobre por encima de los $6. ¿Hasta dónde llegará en 2026?
Autor  Edgar Martin
1 Mes 28 Día Mier
Una demanda creciente, sumada a los problemas en la cadena de suministro, están disparando al cobre por encima de los $6. ¿Hasta dónde llegará en 2026?
placeholder
El USD/JPY se desploma desde máximos mientras la intervención del Yen sacude los mercadosEl USD/JPY cayó un 2.25% el jueves después de una violenta reversión intradiaria que eliminó aproximadamente 500 pips del par en solo unas pocas horas
Autor  FXStreet
5 Mes 01 Día Vie
El USD/JPY cayó un 2.25% el jueves después de una violenta reversión intradiaria que eliminó aproximadamente 500 pips del par en solo unas pocas horas
placeholder
El Dólar australiano mantiene pérdidas antes de la decisión de política del RBAEl par AUD/USD amplía sus pérdidas por segundo día consecutivo y cotiza en torno a 0.7160 durante las horas asiáticas el martes. Los operadores esperan que el Banco de la Reserva de Australia (RBA) aplique una subida de tasas de interés más tarde en el día
Autor  FXStreet
5 Mes 05 Día Mar
El par AUD/USD amplía sus pérdidas por segundo día consecutivo y cotiza en torno a 0.7160 durante las horas asiáticas el martes. Los operadores esperan que el Banco de la Reserva de Australia (RBA) aplique una subida de tasas de interés más tarde en el día
placeholder
El precio del Oro sube mientras las esperanzas de un acuerdo con Irán aplastan al Dólar estadounidense y a los rendimientosEl precio del Oro (XAU/USD) se recupera casi un 3% el miércoles en medio de una creciente especulación sobre el fin de la guerra en Irán, presionando al Dólar y empujando a la baja los rendimientos de los bonos del Tesoro de EE.UU. Al momento de escribir, el XAU/USD cotiza en 4.681$ después de rebotar desde los máximos diarios de 4.723$
Autor  FXStreet
23 hace una horas
El precio del Oro (XAU/USD) se recupera casi un 3% el miércoles en medio de una creciente especulación sobre el fin de la guerra en Irán, presionando al Dólar y empujando a la baja los rendimientos de los bonos del Tesoro de EE.UU. Al momento de escribir, el XAU/USD cotiza en 4.681$ después de rebotar desde los máximos diarios de 4.723$
placeholder
Ethereum Pronóstico del Precio: ETH se desliza por debajo de 2.300$ tras la presión de vendedores en punto de equilibrio y traders en cortoEthereum (ETH) cae un 2% el jueves tras señales de presión de venta en métricas clave en cadena
Autor  FXStreet
8 hace minutos
Ethereum (ETH) cae un 2% el jueves tras señales de presión de venta en métricas clave en cadena
goTop
quote