En un momento en que existen problemas con los crecientes costos de desarrollo y mantenimiento de la IA y la cantidad limitada de hardware disponible, DeepSeek ha presentado un nuevo plan para desarrollar y escalar la inteligencia artificial (IA).
La startup china cree que puede crear modelos de IA significativamente mejores sin necesidad de añadir más chips ni, por lo tanto, aumentar el consumo de energía. Si bien el concepto de mHC propuesto ha despertado gran interés entre muchos investigadores, generalmente se considera que aún se encuentra en sus primeras etapas.
Se requerirá mayor investigación para determinar los beneficios de este enfoque en el desarrollo de sistemas de IA más grandes. La semana pasada se publicó un documento técnico que detalla el concepto de mHC, coescrito por Liang Wenfeng, fundador y director ejecutivo de DeepSeek.
Uno de los componentes principales del trabajo es una reevaluación de cómo se transfiere la información entre las distintas capas de una red neuronal multicapa.
Cada capa de una red neuronal transmite información procesada a la siguiente capa del modelo, creando lo que se denomina una «Red de Aprendizaje Residual» ( ResNet ). Desarrolladas por Kaiming He de Microsoft Research y otros hace aproximadamente diez años, las ResNets sentaron las bases fundamentales de varios de los sistemas de IA más avanzados de la actualidad.
Un concepto desarrollado por DeepSeek fue creado después de que ByteDance introdujera las hiperconexiones en 2024. Las hiperconexiones permiten que la información viaje por múltiples rutas a través de una red, en lugar de solo una ruta principal, lo que puede aumentar la velocidad de aprendizaje y la riqueza de la experiencia.
Sin embargo, si bien pueden ser beneficiosos, también pueden provocar situacionesmatic de entrenamiento, en las que los modelos experimentan inestabilidad o fallas totales en el entrenamiento.
Según Song Linqi (Universidad de la Ciudad de Hong Kong), la investigación de DeepSeek es una progresión de una idea existente, una continuación de cómo DeepSeek analiza el trabajo de otras empresas, en lugar de inventar algo desde cero.
ResNet se compara con una autopista de un solo carril, mientras que Hyper-Connections se asemeja a una autopista de varios carriles; sin embargo, Song advirtió que tener varios carriles sin reglas adecuadas puede conducir a más colisiones.
El profesor Guo Song, de la Universidad de Ciencia y Tecnología de Hong Kong, cree que este trabajo de investigación podría indicar un cambio en el comportamiento de la investigación en IA . En lugar de seguir realizando pequeñas modificaciones en los diseños de los modelos existentes, considera que la investigación podría evolucionar hacia el desarrollo de nuevos modelos basados en conceptos teóricos.
Si bien existe entusiasmo por el reciente hito alcanzado en las pruebas de mHC para el aprendizaje profundo, los expertos han enfatizado que la investigación aún no ha finalizado. Las pruebas proporcionadas por DeepSeek solo utilizaron cuatro rutas de datos al probar modelos con 27 mil millones de parámetros .
“Los experimentos validaron modelos de hasta 27 mil millones de parámetros, pero ¿cómo funcionaría con los modelos de frontera actuales, que son un orden de magnitud mayor?”
Profesor Guo Song.
Los modelos de IA disponibles hoy en día son más grandes y suelen tener cientos de miles de millones de parámetros, en comparación con los 30 mil millones de parámetros que eran el estándar hace apenas unos años.
Guo coincidió con estos sentimientos y afirmó que aún no se puede determinar si mHC podrá realizar trabajos en la vanguardia de la tecnología de IA. También afirmó que la infraestructura necesaria para el funcionamiento de mHC podría ser demasiado avanzada para que la utilicen instituciones de investigación más pequeñas y empresas en dispositivos móviles.
Según Cryptopolitan , la popularidad de DeepSeek se debió al lanzamiento del modelo de lenguaje grande DeepSeek V3 y al lanzamiento posterior de su modelo de razonamiento DeepSeek-R1 solo un par de semanas después.
Al comparar los resultados de los modelos con sus competidores durante las pruebas comparativas, ambos modelos pudieron alcanzar o superar los resultados de sus competidores a pesar de haber sido lanzados utilizando solo una fracción de los datos de entrenamiento utilizados para los otros modelos de idiomas de la competencia.
Obtén $50 gratis para operar con criptomonedas al registrarte en Bybit ahora