Hoy es el dÃa de la noticia que está causando revuelo, posiblemente no solo hoy, sino durante toda la semana. DeepSeek R1, el modelo de inteligencia artificial (IA) de código abierto proveniente de China, está generando gran preocupación entre las tecnológicas estadounidenses. Su impacto se debe principalmente a su naturaleza abierta, que desafÃa los modelos de negocio convencionales de las empresas de IA y semiconductores en Estados Unidos. Además, lo más sorprendente es que la infraestructura detrás de DeepSeek es notablemente modesta.
Para comprender lo que está en juego, es relevante mencionar que la GPU más utilizada actualmente en los centros de datos para IA es el chip H100 de NVIDIA. Esta empresa, liderada por Jensen Huang, ya ha empezado a entregar las primeras unidades de su sucesora, la plataforma B200, que promete un rendimiento superior. No obstante, las sanciones del Gobierno de Estados Unidos prohÃben a NVIDIA vender estas GPU a sus clientes en China, lo que convierte a DeepSeek en un jugador disruptivo
DeepSeek: su eficiencia y naturaleza abierta sacuden Silicon Valley
Empresas chinas dedicadas al desarrollo y entrenamiento de modelos de IA se han visto obligadas a ser más ingeniosas. Aunque muchas continúan comprando las avanzadas GPU de NVIDIA a través de intermediarios y mercados alternativos, probablemente no en la cantidad que realmente necesitan. Según el Financial Times, para entrenar a DeepSeek se han utilizado 2.048 chips H800 de NVIDIA, con un costo de 5.6 millones de dólares para entrenar 671.000 millones de parámetros.
Estas cifras son sorprendentemente moderadas. Si estos datos son precisos, lo cual parece ser el caso, esto evidencia que los ingenieros de DeepSeek han conseguido desarrollar un modelo de IA altamente competitivo con costos significativamente menores a los de OpenAI y Google para modelos comparables. En gran medida, la GPU H800 es clave en este escenario, surgida como respuesta de NVIDIA a las restricciones impuestas por la administración de Joe Biden.
NVIDIA decidió reducir el rendimiento de la GPU H100 para poder venderla en China, resultando en el chip H800
Al impedÃrsele vender su GPU H100 en China, NVIDIA decidió reducir sus capacidades para que el Departamento de Comercio permitiera su comercialización allÃ. Asà nació la GPU H800, una versión simplificada de la H100.
El panorama se complicó más el 16 de noviembre de 2023, cuando el Gobierno de Estados Unidos implementó nuevas sanciones que prohibÃan a NVIDIA vender la GPU H800 en China. Para ese momento, se presume que DeepSeek ya contaba con los chips H800 necesarios, aunque algunos analistas afirman que, en realidad, utilizan 50.000 GPU H100 adquiridas en mercados paralelos.
Si esto fuera verdad, la tensión entre Estados Unidos y China harÃa que DeepSeek mantuviera en secreto la posesión de estos chips. Lo cierto es que el valor de mercado de NVIDIA, Microsoft, ASML y otras grandes tecnológicas está cayendo drásticamente. Jensen Huang y su empresa han visto disminuir su valor en 400.000 millones debido a la posibilidad de que DeepSeek demuestre que es posible desarrollar modelos de IA de vanguardia sin las GPU más avanzadas de NVIDIA. Si efectivamente DeepSeek se entrenó con solo 2.048 chips H800, el sector de IA podrÃa replantearse la importancia de la optimización y eficiencia. Aguardaremos a ver cómo evoluciona esta situación.
Imagen | NVIDIA
Más información | Financial Times
Deja una respuesta