En los últimos dos años, las compañÃas dedicadas al desarrollo de modelos de inteligencia artificial han mostrado una voracidad insaciable por aumentar el uso de GPUs y datos en sus modelos. Sin embargo, esta estrategia parece estar llegando a un punto de inflexión: ya no está dando los resultados esperados.
El fin de una era con GPT-4.5. ChatGPT ha sido siempre sinónimo de modelos tradicionales «sin razonamiento», aunque recientemente ha comenzado a incluir modos de razonamiento. Sin embargo, su principal estructura sigue siendo GPT-4, que tendrá un último descendiente: GPT-4.5. Este será el último de su tipo, lo que resulta especialmente notable.
El lÃmite del escalado. Expertos como Gary Marcus han observado que GPT-4.5 confirma que seguir invirtiendo en más GPUs y datos ya no es sostenible. La expectativa de OpenAI estaba en Orion, que se suponÃa serÃa GPT-5, pero al parecer, se ha materializado (probablemente) en GPT-4.5.
El muro del progreso. El avance en rendimiento y capacidad no ha alcanzado las expectativas, lo que sugiere una desaceleración en la inteligencia artificial generativa «sin razonamiento». Parece haberse topado con un muro, y el foco está cambiando completamente hacia modelos de razonamiento.
Una realidad compartida. OpenAI no es la única que enfrenta esta nueva realidad con GPT-4.5. Otras compañÃas de IA están en la misma situación. Grok 3 y xAI se están quedando atrás, y aún no hemos visto una continuación de Claude 3.5. Anthropic está en silencio, mientras que Google ha presentado Gemini 2.0, cuyo avance respecto a Gemini 1.5 no sorprende, salvo por su versión de razonamiento, Flash Thinking.
Una advertencia anticipada. Experto como Yann LeCun de Meta advirtieron hace tiempo que la estrategia de «más datos y más GPUs» tenÃa fecha de caducidad. Ilya Sutskever, cofundador de OpenAI, también lo señaló, afirmando que el entrenamiento masivo de modelos con grandes conjuntos de datos sin etiquetar ya no ofrecÃa las ventajas esperadas.
¿Por qué seguir invirtiendo? Si el escalado tradicional no es la solución, surge la pregunta: ¿por qué las empresas continúan invirtiendo miles de millones en centros de datos? La respuesta es variada. Aunque el escalado aún es útil para perfeccionar modelos y reducir errores, la verdadera razón es la infraestructura para la inferencia, permitiendo el uso masivo de la IA en la vida diaria.
El valor de los modelos de razonamiento. La desaceleración afecta a la IA generativa tradicional, no a toda la IA. Los modelos como o1, DeepSeek R1 o Gemini 2.0 Flash Thinking muestran la nueva tendencia, siendo más precisos y ofreciendo respuestas de mayor calidad, generando confianza para tareas automatizadas.
El futuro prometedor de la IA. A pesar de los lÃmites del escalado masivo, la IA tiene un futuro brillante. Existen muchos caminos por explorar, siendo los modelos de razonamiento solo uno de ellos.
Imagen | Amazon
Deja una respuesta