Se rumorea que DeepSeek V4 superará a ChatGPT y Claude en la codificación de contexto largo

Fuente Cryptopolitan

Se rumorea que DeepSeek V4 superará a ChatGPT y Claude en codificación de contexto largo, enfocada en tareas de codificación de alto nivel. Fuentes internas afirman que el panorama de la IA en Silicon Valley debería preocuparse si las pruebas internas dan indicios de su rendimiento esperado tras el lanzamiento a mediados de febrero.

Según se informa, la empresa emergente de inteligencia artificial con sede en China, DeepSeek, planea lanzar DeepSeek V4, su último modelo de lenguaje de gran tamaño, el 17 de febrero. Personas familiarizadas con el asunto afirman que el modelo está a punto de eclipsar a los modelos de lenguaje de gran tamaño existentes, como ChatGPT de OpenAI y Claude de Anthropic, al gestionar solicitudes y tareas de código de contexto largo.

Los desarrolladores expresan una gran expectativa por el lanzamiento de DeepSeek V4

La compañía china no ha revelado públicamente ninguna información sobre el lanzamiento inminente ni ha confirmado los rumores hasta el momento de escribir este artículo. Desarrolladores en diferentes redes sociales han expresado gran expectación por el lanzamiento. Yuchen Jin, desarrollador de IA y cofundador de Hyperbolic Labs, escribió en X: «Se rumorea que DeepSeek V4 se lanzará pronto, con un tron que Claude y GPT».

El subreddit r/DeepSeek también se calentó , y un usuario explicó que su obsesión con el inminente modelo V4 de DeepSeek no era normal. El usuario comentó que frecuentemente "reviso noticias, posibles rumores, e incluso reviso la documentación en el sitio web de DS para buscar cambios o indicios de una actualización".

Los lanzamientos anteriores de DeepSeek han tenido un impacto significativo en los mercados globales. La startup china de IA lanzó su modelo de razonamiento R1 en enero de 2025, lo que provocó una liquidación de un billón de dólares. El lanzamiento igualó al modelo 01 de OpenAI en cuanto a matemáticas y razonamiento, a pesar de costar significativamente menos que lo que la startup estadounidense de IA invirtió en su modelo 01.

Según se informa, la empresa china invirtió solo 6 millones de dólares en el lanzamiento del modelo. Mientras tanto, sus competidores globales gastan casi 70 veces más para obtener el mismo rendimiento. Su modelo V3 también obtuvo una puntuación del 90,2 % en la prueba de rendimiento MATH-500, frente al 78,3 % de Claude. La actualización más reciente de DeepSeek a la V3 (V3.2 Speciale) mejoró aún más su productividad.

El atractivo de su modelo V4 ha evolucionado a partir del énfasis de la V3 en el razonamiento puro, las demostraciones formales y la matemática lógica. Se espera que la nueva versión sea un modelo híbrido que combine tareas de razonamiento y no razonamiento. El modelo busca captar el mercado de desarrolladores, cubriendo una brecha existente que exige alta precisión y generación de código de contexto extenso.

Claude Opus 4.5 actualmente domina el benchmark SWE, con una precisión del 80,9 %. El V4 necesita superar esta cifra para superar a Claude Opus 4.5. Basándose en éxitos anteriores, el nuevo modelo podría superar este umbral y dominar el benchmark.

DeepSeek es pionero en mHC para la formación de LLM

El éxito de DeepSeek ha dejado a muchos profesionales con una profunda incredulidad. ¿Cómo pudo una empresa tan pequeña alcanzar tales hitos? El secreto podría estar profundamente arraigado en su artículo de investigación publicado el 1 de enero. La compañía dent un nuevo método de entrenamiento que permite a los desarrolladores escalar fácilmente grandes modelos de lenguaje. Liang Wenfeng, fundador y director ejecutivo de DeepSeek, escribió en el estudio que la compañía utiliza hiperconexiones restringidas por múltiples (mHC) para entrenar sus modelos de IA.

El ejecutivo propuso usar mHC para abordar los problemas que surgen al entrenar modelos lingüísticos extensos. Según Wenfeng, mHC es una versión mejorada de Hyper-Connections (HC), un framework que otros desarrolladores de IA utilizan para entrenar sus modelos lingüísticos extensos. Explicó que HC y otras arquitecturas de IA tradicionales fuerzan todos los datos a través de un único canal estrecho. Al mismo tiempo, mHC amplía esa ruta a múltiples canales, facilitando la transferencia de datos e información sin provocar un colapso del entrenamiento. 

Lian Jye Su, analista jefe de Omdia, elogió al director ejecutivo Wenfeng por publicar su investigación. Su enfatizó que la decisión de DeepSeek de publicar sus métodos de entrenamiento demuestra una renovada confianza en el sector chino de IA. DeepSeek ha dominado el mundo en desarrollo. Microsoft publicó un informe el jueves que muestra que DeepSeek domina el 89% del mercado chino de IA y ha cobrado impulso en los países en desarrollo.

Si estás leyendo esto, ya estás al tanto. Sigue leyendo nuestro boletín .

Descargo de responsabilidad: Sólo con fines informativos. Rentabilidades pasadas no son indicativas de resultados futuros.
placeholder
Pronóstico del Precio de Ethereum: ETH enfrenta distribución, falla en la EMA de 50 díasEl precio de Ethereum ha bajado aproximadamente un 3% al momento de escribir el jueves, revirtiendo las ganancias obtenidas en los últimos dos días
Autor  FXStreet
El dia de ayer 01: 22
El precio de Ethereum ha bajado aproximadamente un 3% al momento de escribir el jueves, revirtiendo las ganancias obtenidas en los últimos dos días
placeholder
El Oro sube debido a la debilidad del Dólar estadounidense, los operadores esperan el discurso de Trump sobre la guerra en IránEl precio del Oro (XAU/USD) extiende el repunte hasta cerca de 4.775$ durante la primera parte de la sesión asiática del jueves. El metal precioso se dispara en medio de un debilitamiento del Dólar estadounidense (USD) y la disminución de las tensiones geopolíticas en Oriente Medio
Autor  FXStreet
4 Mes 02 Día Jue
El precio del Oro (XAU/USD) extiende el repunte hasta cerca de 4.775$ durante la primera parte de la sesión asiática del jueves. El metal precioso se dispara en medio de un debilitamiento del Dólar estadounidense (USD) y la disminución de las tensiones geopolíticas en Oriente Medio
placeholder
Retrospectiva del panorama financiero: Últimas noticias y análisis del marzoEn medio de un panorama financiero incierto, el mercado bancario ha sido testigo de dos eventos importantes en marzo de 2023.
Autor  Mitrade Team
4 Mes 01 Día Mier
En medio de un panorama financiero incierto, el mercado bancario ha sido testigo de dos eventos importantes en marzo de 2023.
placeholder
El dólar estadounidense ha mostrado un crecimiento debido a las recientes declaraciones de la Reserva Federal de EE.UU.Al iniciar 2024, el mercado Forex se ha visto influenciado significativamente por las estrategias de los bancos centrales y los cambios en la inflación, factores clave para anticipar las variaciones en los tipos de interés.
Autor  Mitrade Team
4 Mes 01 Día Mier
Al iniciar 2024, el mercado Forex se ha visto influenciado significativamente por las estrategias de los bancos centrales y los cambios en la inflación, factores clave para anticipar las variaciones en los tipos de interés.
placeholder
Arabia Saudita ejecutó un recorte significativo en los precios oficiales del crudo Arab Light hacia Asia, especialmente hacia su principal comprador, China, fijando el precio más bajo en 27 meses.Últimas noticias y tendencias del mercado de Materias Primas en el inicio de 2024
Autor  Mitrade Team
4 Mes 01 Día Mier
Últimas noticias y tendencias del mercado de Materias Primas en el inicio de 2024
goTop
quote