El surgimiento de DeepSeek ha marcado un antes y un después en la evolución de los modelos de inteligencia artificial. Este avance demuestra que la comunidad de código abierto puede competir con los gigantes como OpenAI, Google y Anthropic.
Su extenso informe técnico, de 53 páginas, detalla cómo ha conseguido este logro, destacando el uso eficiente de recursos computacionales limitados.
Evitando Restricciones de Exportación
En el dinámico ámbito de la IA, la eficiencia computacional adquiere una relevancia crucial, especialmente cuando se enfrentan limitaciones de hardware. DeepSeek ha optimizado el rendimiento sin infringir las restricciones de exportación de chips impuestas por EE.UU. a China.
La clave radica en la importancia del software innovador tanto como del hardware. DeepSeek ha empleado un código de bajo nivel altamente eficiente que optimiza la gestión de memoria y comunicación entre nodos, utilizando la técnica de ‘Cross-Node All-to-All Communication’ para evitar atascos de datos.
Focalizando en lo Esencial
Para entrenar modelos de lenguaje de gran tamaño de manera más rápida y económica, DeepSeek ha adoptado una técnica que se enfoca solo en las partes más relevantes:
- Predicción Inteligente: Utiliza el ‘Multi-token Prediction Training Objective’ para identificar y activar los parámetros más relevantes, ahorrando energÃa y recursos.
- Trabajo Distribuido: Implementa la técnica ‘Mixture of Experts’, dividiendo el entrenamiento entre distintos ‘expertos’ dentro del mismo modelo.
Con esta estrategia, DeepSeek ha reducido significativamente el uso de GPUs y ha acelerado notablemente el proceso de entrenamiento.
Optimización de Costos y Rendimiento
DeepSeek ha desarrollado una solución para reducir los costos operativos de sus modelos, optimizando el uso de memoria durante el proceso de inferencia.
La tecnologÃa DeepSeekMLA (Multi-head Latent Attention) permite al modelo trabajar con una ventana de contexto más pequeña, lo que reduce el espacio de almacenamiento necesario para los datos.
Mediante la técnica FP8 Mixed Precision Training, DeepSeek realiza cálculos con números de 8 bits y emplea mayores precisiones solo cuando es necesario, ahorrando memoria y tiempo sin comprometer la exactitud.
Esta optimización permite operar modelos grandes en hardware accesible, sin sacrificar la calidad de las predicciones.
Aprendizaje Eficiente
El modelo de DeepSeek utiliza el aprendizaje por refuerzo, una técnica que disminuye la necesidad de grandes cantidades de datos etiquetados, un aspecto que tradicionalmente complica el desarrollo de IA.
El modelo se autoevalúa y ajusta constantemente para mejorar. Asimismo, utiliza la ‘destilación de modelos’ para entrenar modelos pequeños que replican el comportamiento de otros más grandes, reduciendo asà los costos de computación.
Ecosistema Competitivo
El usuario de X, @wordgrammer, experto en inteligencia artificial, opina que el éxito de DeepSeek radica en sus innovaciones para reducir costos, permitiéndoles replicar rápidamente modelos como el ‘o1’ de OpenAI.
«No hay magia aquÃ. Han logrado innovaciones clave para reducir costos, lo que les permitió realizar más experimentos y replicar rápidamente modelos competidores.»
Aunque reconoce que las sanciones estadounidenses no fueron efectivas, destaca que, adoptando las innovaciones de DeepSeek, otros pueden mejorar usando su mayor capacidad de computación y datos.
«Las restricciones de exportación afectaron menos de lo esperado. Si adoptamos la arquitectura de DeepSeek, nuestros modelos mejorarán con nuestra capacidad de cómputo y datos superiores.»
Imagen | Marcos Merino mediante IA
En Genbeta | DeepSeek no se conformó con impactar Wall Street: acaba de introducir una IA que analiza y genera imágenes.
Deja una respuesta