El lanzamiento del modelo V3 de inteligencia artificial (IA) DeepSeek como código abierto es un avance significativo. Con cada detalle que surge, se aclara la estrategia que los ingenieros de esta empresa china han desarrollado para crear un modelo de IA tan eficaz. Es crucial recordar que DeepSeek afirma haber entrenado su modelo utilizando solo 2.048 chips H800 de NVIDIA.
Algunos expertos especulan que realmente usan una infraestructura de 50.000 GPU H100 adquiridas a través de terceros, aunque esto es solo una suposición. Este chip supera al H800 en potencia, pero es plausible que DeepSeek haya tenido que conformarse con este último debido a las restricciones del Gobierno estadounidense que limitan el acceso de empresas chinas al chip H100. Desde noviembre de 2023, NVIDIA tampoco puede enviar su chip H800 a clientes chinos.
El éxito de DeepSeek: PTX como pieza clave
El notable crecimiento de NVIDIA en los últimos cinco años se debe no solo a sus GPU, sino también a la tecnologÃa CUDA (Compute Unified Device Architecture). Muchos proyectos de IA actuales se basan en CUDA, que incluye el compilador y herramientas de desarrollo necesarias para programar software para las GPU de NVIDIA. Sustituir CUDA en proyectos en curso no es tarea sencilla.
Huawei, que ambiciona capturar una porción significativa del mercado chino, ofrece CANN (Compute Architecture for Neural Networks) como alternativa a CUDA, aunque por ahora CUDA mantiene el liderazgo. Esta herramienta de NVIDIA brinda a los programadores un lenguaje de alto nivel facilitando el acceso al hardware de la GPU. Sin embargo, lo más relevante de este artÃculo es que los ingenieros de DeepSeek han prescindido de CUDA en favor de PTX (Parallel Thread Execution).
Los ingenieros de DeepSeek han optado por usar PTX para maximizar el rendimiento de las GPU H800 disponibles
PTX es un lenguaje semejante al ensamblador; de hecho, se le considera el ensamblador propuesto por NVIDIA para aquellos desarrolladores que desean optimizar sus códigos en bajo nivel. Programar con PTX es más exigente que con CUDA, pero permite escribir códigos más eficientes y optimizar mejor los recursos del hardware de la GPU.
Es probable que los ingenieros de DeepSeek eligieran PTX para explotar al máximo las GPU H800 en su poder. Parte de su estrategia fue asignar solo 20 SM (Streaming Multiprocessors) de cada GPU para la comunicación entre servidores, permitiendo que los 112 SM restantes se dediquen a procesos de cálculo. DeepSeek ha sido diseñado desde cero con este tipo de optimizaciones, lo cual explica por qué su modelo de IA es tan eficiente.
Los programadores de esta compañÃa china han logrado una hazaña en la ingenierÃa que seguramente impactará la forma en que los desarrolladores de modelos de IA abordarán futuros proyectos. Esto demuestra que China se está adaptando exitosamente a la reducción de GPU causada por las sanciones estadounidenses.
Imagen | NVIDIA
Más información | Mirae Asset Securities Korea
Deja una respuesta