El debut de DeepSeek en mHC genera escepticismo antes de la validación por pares

Fuente Cryptopolitan

En un momento en que existen problemas con los crecientes costos de desarrollo y mantenimiento de la IA y la cantidad limitada de hardware disponible, DeepSeek ha presentado un nuevo plan para desarrollar y escalar la inteligencia artificial (IA).

La startup china cree que puede crear modelos de IA significativamente mejores sin necesidad de añadir más chips ni, por lo tanto, aumentar el consumo de energía. Si bien el concepto de mHC propuesto ha despertado gran interés entre muchos investigadores, generalmente se considera que aún se encuentra en sus primeras etapas.

Se requerirá mayor investigación para determinar los beneficios de este enfoque en el desarrollo de sistemas de IA más grandes. La semana pasada se publicó un documento técnico que detalla el concepto de mHC, coescrito por Liang Wenfeng, fundador y director ejecutivo de DeepSeek.

DeepSeek replantea el diseño de la red para escalar la IA

Uno de los componentes principales del trabajo es una reevaluación de cómo se transfiere la información entre las distintas capas de una red neuronal multicapa.

Cada capa de una red neuronal transmite información procesada a la siguiente capa del modelo, creando lo que se denomina una «Red de Aprendizaje Residual» ( ResNet ). Desarrolladas por Kaiming He de Microsoft Research y otros hace aproximadamente diez años, las ResNets sentaron las bases fundamentales de varios de los sistemas de IA más avanzados de la actualidad.

Un concepto desarrollado por DeepSeek fue creado después de que ByteDance introdujera las hiperconexiones en 2024. Las hiperconexiones permiten que la información viaje por múltiples rutas a través de una red, en lugar de solo una ruta principal, lo que puede aumentar la velocidad de aprendizaje y la riqueza de la experiencia.

Sin embargo, si bien pueden ser beneficiosos, también pueden provocar situacionesmatic de entrenamiento, en las que los modelos experimentan inestabilidad o fallas totales en el entrenamiento.

Según Song Linqi (Universidad de la Ciudad de Hong Kong), la investigación de DeepSeek es una progresión de una idea existente, una continuación de cómo DeepSeek analiza el trabajo de otras empresas, en lugar de inventar algo desde cero.

ResNet se compara con una autopista de un solo carril, mientras que Hyper-Connections se asemeja a una autopista de varios carriles; sin embargo, Song advirtió que tener varios carriles sin reglas adecuadas puede conducir a más colisiones.

El profesor Guo Song, de la Universidad de Ciencia y Tecnología de Hong Kong, cree que este trabajo de investigación podría indicar un cambio en el comportamiento de la investigación en IA . En lugar de seguir realizando pequeñas modificaciones en los diseños de los modelos existentes, considera que la investigación podría evolucionar hacia el desarrollo de nuevos modelos basados en conceptos teóricos.

Los investigadores prueban el mHC pero plantean preocupaciones prácticas

Si bien existe entusiasmo por el reciente hito alcanzado en las pruebas de mHC para el aprendizaje profundo, los expertos han enfatizado que la investigación aún no ha finalizado. Las pruebas proporcionadas por DeepSeek solo utilizaron cuatro rutas de datos al probar modelos con 27 mil millones de parámetros .

“Los experimentos validaron modelos de hasta 27 mil millones de parámetros, pero ¿cómo funcionaría con los modelos de frontera actuales, que son un orden de magnitud mayor?”

Profesor Guo Song.

Los modelos de IA disponibles hoy en día son más grandes y suelen tener cientos de miles de millones de parámetros, en comparación con los 30 mil millones de parámetros que eran el estándar hace apenas unos años.

Guo coincidió con estos sentimientos y afirmó que aún no se puede determinar si mHC podrá realizar trabajos en la vanguardia de la tecnología de IA. También afirmó que la infraestructura necesaria para el funcionamiento de mHC podría ser demasiado avanzada para que la utilicen instituciones de investigación más pequeñas y empresas en dispositivos móviles.

Según Cryptopolitan , la popularidad de DeepSeek se debió al lanzamiento del modelo de lenguaje grande DeepSeek V3 y al lanzamiento posterior de su modelo de razonamiento DeepSeek-R1 solo un par de semanas después.

Al comparar los resultados de los modelos con sus competidores durante las pruebas comparativas, ambos modelos pudieron alcanzar o superar los resultados de sus competidores a pesar de haber sido lanzados utilizando solo una fracción de los datos de entrenamiento utilizados para los otros modelos de idiomas de la competencia.

Obtén $50 gratis para operar con criptomonedas al registrarte en Bybit ahora

Descargo de responsabilidad: Sólo con fines informativos. Rentabilidades pasadas no son indicativas de resultados futuros.
placeholder
Plata Pronóstico del Precio: Alcistas del XAG/USD mantienen el control cerca del máximo histórico, por encima de 69.00$La Plata (XAG/USD) prolonga su reciente tendencia alcista bien establecida y sube a un nuevo máximo histórico, alrededor del área de 69.45$, durante la sesión asiática.
Autor  FXStreet
22 de dic de 2025
La Plata (XAG/USD) prolonga su reciente tendencia alcista bien establecida y sube a un nuevo máximo histórico, alrededor del área de 69.45$, durante la sesión asiática.
placeholder
Pronóstico Anual del Precio de Ethereum: ETH preparado para el crecimiento en 2026 en medio de claridad regulatoria y adopción institucionalEthereum (ETH) perdió un 12% de su valor en 2025, disminuyendo de 3.336$ al comienzo del año a 2.930$ en la tercera semana de diciembre, un marcado contraste con la ganancia del 48% de 2024. Pero ese porcentaje no refleja la locura que fue el año de ETH en 2025
Autor  FXStreet
25 de dic de 2025
Ethereum (ETH) perdió un 12% de su valor en 2025, disminuyendo de 3.336$ al comienzo del año a 2.930$ en la tercera semana de diciembre, un marcado contraste con la ganancia del 48% de 2024. Pero ese porcentaje no refleja la locura que fue el año de ETH en 2025
placeholder
Mercados en 2026: ¿Volverán a hacer historia el oro, el Bitcoin y el dólar estadounidense? — Esto es lo que piensan las principales institucionesTras un 2025 turbulento, ¿qué les espera a los mercados de materias primas, Fórex y criptomonedas en 2026?
Autor  Mitrade Team
25 de dic de 2025
Tras un 2025 turbulento, ¿qué les espera a los mercados de materias primas, Fórex y criptomonedas en 2026?
placeholder
EUR/USD se estabiliza cerca de 1.1720 mientras el operador ignora el nerviosismo por VenezuelaEl EUR/USD recuperó algo de terreno el lunes a pesar de que rebotó en mínimos diarios cerca de 1.1710 y terminó la sesión sin cambios alrededor de 1.1718 a medida que mejoró el apetito por el riesgo, a pesar de las crecientes tensiones geopolíticas
Autor  FXStreet
El dia de ayer 01: 32
El EUR/USD recuperó algo de terreno el lunes a pesar de que rebotó en mínimos diarios cerca de 1.1710 y terminó la sesión sin cambios alrededor de 1.1718 a medida que mejoró el apetito por el riesgo, a pesar de las crecientes tensiones geopolíticas
placeholder
El WTI parece vulnerable por debajo de los 56.00$ medios, ya que el plan de petróleo de Trump para Venezuela alimenta las esperanzas de suministroLos precios del petróleo crudo West Texas Intermediate (WTI) de EE.UU. extienden el fuerte retroceso del día anterior desde la región de 58,65$-58,70$, o más de un máximo de una semana, y atraen una fuerte venta por segundo día consecutivo el miércoles.
Autor  FXStreet
6 hace una horas
Los precios del petróleo crudo West Texas Intermediate (WTI) de EE.UU. extienden el fuerte retroceso del día anterior desde la región de 58,65$-58,70$, o más de un máximo de una semana, y atraen una fuerte venta por segundo día consecutivo el miércoles.
goTop
quote