El costo del entrenamiento de los modelos de inteligencia artificial (IA) avanzados está bajo escrutinio. Esto es comprensible debido a la aparición del modelo de la compañÃa china DeepSeek, que alegadamente presenta un costo de entrenamiento moderado, cuestionando las estrategias y las inversiones de empresas como OpenAI, Google y Microsoft.
Un breve contexto: los responsables de DeepSeek afirman que su infraestructura para entrenar el modelo emplea 2.048 chips H800 de NVIDIA, sumando un proceso con 671.000 millones de parámetros que costó 5,6 millones de dólares. Sin embargo, ciertos analistas sugieren que estos números no son precisos.
El análisis de SemiAnalysis indica que, en realidad, DeepSeek usó alrededor de 50.000 GPU de NVIDIA con la microarquitectura Hopper para entrenar su modelo de IA. Según Dylan Patel, AJ Kourabi, Doug O’Laughlin y Reyk Knuhtsen, al menos 10.000 de estos chips son GPU H100 de NVIDIA, y otros 10.000 son GPU H800, mientras que el resto corresponden a las GPU recortadas H20.
El modelo ‘s1’ añade más interés al debate
El 31 de enero, investigadores de las universidades de Stanford y Washington, en EE.UU., publicaron un documento en el repositorio arXiv afirmando haber entrenado un modelo de IA con habilidades de razonamiento comparable a los modelos o1 de OpenAI o R1 de DeepSeek, con una inversión de menos de 50 dólares.
Inicialmente, parece imposible. Con ese presupuesto, entrenar un modelo de inteligencia artificial avanzado y competitivo con los de OpenAI o DeepSeek parece inviable. Pero es cierto. Para comprender cómo lo lograron, debemos explorar su estrategia. Los 50 dólares representan el costo del alquiler de la infraestructura de computación en la nube utilizada para el entrenamiento. Esto es plausible si el tiempo invertido es mÃnimo.
‘s1’ ha sido desarrollado a partir del modelo de IA gratuito Qwen2.5-32B del laboratorio chino Qwen
Sin embargo, hay aspectos adicionales cruciales. Su modelo de razonamiento, denominado s1, fue desarrollado a partir del modelo de IA gratuito Qwen2.5-32B, creado por el laboratorio chino Qwen de Alibaba. Además, su metodologÃa de razonamiento se inspira en el modelo Gemini 2.0 Flash Thinking Experimental de Google. No comenzaron desde cero. Un dato interesante: el modelo s1 y los datos y códigos usados para su entrenamiento están disponibles en GitHub.
Asimismo, el entrenamiento duró menos de 30 minutos empleando solo 16 chips H100 de NVIDIA de la infraestructura de computación en la nube. De ahà el costo de menos de 50 dólares. Otro aspecto a destacar: el modelo de razonamiento de s1 se generó mediante destilación del modelo Gemini 2.0 Flash Thinking Experimental.
La destilación es una técnica de aprendizaje automático que transfiere el conocimiento de un modelo grande y avanzado a otro más pequeño y eficiente, ahorrando recursos aunque no permita crear modelos desde cero. Más allá del reiterado costo de 50 dólares, lo fundamental es que es posible desarrollar modelos de IA competitivos con inversiones inferiores a las realizadas por las principales empresas de tecnologÃa hasta la fecha.
Imagen | Luis Gomes
Más información | arXiv | GitHub
Deja una respuesta