El entrenamiento de modelos con más GPUs y datos podría estar perdiendo eficacia

OpenAI está por lanzar un nuevo modelo llamado Orion, lo que en otro momento generaría gran expectativa. Sin embargo, las expectativas en torno a este lanzamiento son moderadas. Parece que estamos experimentando una desaceleración en el desarrollo de la inteligencia artificial generativa, y hay figuras destacadas que coinciden con esta percepción, incluyendo a alguien que jugó un rol crucial en la creación de ChatGPT.

Ilya Sutskever. Este cofundador de OpenAI y uno de los principales responsables de ChatGPT dejó la empresa en mayo para fundar su propia startup de inteligencia artificial, Safe Superintelligence Inc (SSI). Su meta es crear una superinteligencia con un nivel de seguridad comparable al nuclear, pero no seguirá el camino reciente de OpenAI.

El estancamiento de la IA generativa. Según un artículo en Reuters, el método tradicional de entrenar modelos de IA generativa ha llegado a un punto de estancamiento. El entrenamiento intensivo de modelos usando enormes volúmenes de datos sin etiquetar parece haber alcanzado su límite, y hacerlos más grandes ya no proporciona beneficios significativos, explica Sutskever. Yann LeCun, jefe de IA en Meta, también ha defendido esta opinión desde hace tiempo.

Más no siempre es mejor. Las grandes compañías han continuado incrementando el uso de GPUs más potentes y grandes cantidades de datos, pero los desarrollos recientes de nuevos modelos no parecen mostrar mejoras tan notables como las vistas en 2023 y principios de 2024.

Un gran esfuerzo con pocos beneficios. Fuentes de Reuters indicaron que los laboratorios trabajando en nuevos modelos de IA enfrentan retrasos y resultados insatisfactorios. Los ciclos de entrenamiento pueden ser costosísimos y prolongados, sin certeza de éxito. Solo al concluir el ciclo se puede determinar si el esfuerzo fue justificado o si las mejoras son mínimas.

Expectativas en retroceso. Bloomberg informó que el modelo Orion de OpenAI no supone actualmente un avance significativo comparado con GPT-4o. Google también enfrenta una situación similar con Gemini, y Anthropic ha retrasado la introducción de Claude 3.5 Opus. En todos los casos, los nuevos desarrollos son solo marginalmente mejores que sus predecesores y aún no están listos para salir al mercado.

O1 es el modelo de OpenAI que trata de ofrecer mejores respuestas «razonando»: analiza varias posibilidades antes de contestar y elige la que considera más precisa.

Optimismo de parte de Sutskever. A pesar de todo, Sutskever mencionó que «la década de 2010 fue la era del escalado [de recursos y entrenamiento], y ahora estamos nuevamente en la era del asombro y el descubrimiento. Todos buscan qué será lo siguiente». Aunque su declaración es intrigante, no especifica a qué se refiere, algo curioso considerando que el asombro inicial rodeó a ChatGPT. La familiaridad actual con estos chatbots ha disminuido esa sorpresa inicial. En cualquier caso, para él se trata de «escalar de manera adecuada».

Un plan B, sin revelar detalles. Sutskever no compartió cómo él y su equipo planean superar las limitaciones de las IAs generativas actuales. Solo señaló que exploran un enfoque diferente al escalado del entrenamiento, sin ofrecer detalles. Dada su trayectoria, será interesante ver qué soluciones presenta su startup.

Obligando a la IA a «razonar». Para superar estos desafíos, se está utilizando una técnica llamada «test-time compute». Esta obliga a los modelos a evaluar múltiples respuestas en tiempo real antes de seleccionar la mejor. Es lo que hace el modelo o1 de OpenAI, que revisa sus respuestas para descartar las incorrectas y elegir la más precisa. Empresas como Anthropic, xAI, Microsoft y Google también están explorando este enfoque en sus modelos.

De GPUs para entrenamiento a GPUs para inferencia. Este tipo de procesos está desplazando el interés hacia hardware especializado para la inferencia. Jensen Huang mencionó recientemente que existe una «segunda ley del escalado» que aboga por disponer de más chips dedicados a la inferencia, elevando la demanda de Blackwell. Sus nuevos chips especializados para IA estarán disponibles pronto, pero la competencia también buscará aprovechar esta oportunidad.

Imagen | OpenAI

El entrenamiento de modelos con más GPUs y datos podría estar perdiendo eficacia

Noticias de Zacatecoluca

Ultimas noticias

Buscar noticia

Interacciones con los lectores

Deja una respuesta Cancelar la respuesta

Footer

Noticias de Zacatecoluca

Siguenos

Ultimas noticias

Buscar noticia

Tags