Las máquinas no piensan, eso es solo una ilusión. Esto no es una afirmación nuestra, sino la conclusión de un grupo de investigadores de Apple que han publicado un revelador estudio titulado ‘La ilusión de pensar’. En este trabajo, los expertos analizaron cómo varios modelos de inteligencia artificial (IA) que presumen de «razonar» realmente operan, y sus hallazgos resultan sorprendentes y alarmantes.
Puzzles como Prueba para IAs «Razonadoras». En lugar de las pruebas tradicionales que miden la capacidad de un modelo de IA mediante tareas de programación o matemáticas, Apple optó por crear pruebas a base de puzzles lógicos completamente nuevos, asegurando que no formaran parte del entrenamiento previo de estos modelos. En estas evaluaciones participaron sistemas como Claude Thinking, DeepSeek-R1 y o3-mini.
Modelos que Chocan con la Realidad. A lo largo de estas pruebas, quedó patente cómo los modelos de razonamiento se enfrentaban a dificultades insalvables. En situaciones de alta complejidad, la precisión de estos modelos caÃa a un 0%. No importaba cuántos recursos adicionales se les otorgara; si el problema era demasiado complicado, simplemente no lo resolvÃan.
Una Curiosa Tendencia al Rendimiento. Algo curioso salió a la luz: en la medida que los problemas se complicaban, los modelos no pensaban más, sino menos. ReducÃan el uso de tokens para hallar soluciones y desistÃan rápidamente a pesar de contar con recursos ilimitados.
Fallan Incluso con GuÃa. En un esfuerzo por mejorar el rendimiento, los investigadores proporcionaron a los modelos un algoritmo exacto para guiar su camino hacia la solución paso a paso. Sorprendentemente, los modelos no lograban resolver los problemas, mostrando incapacidad para seguir instrucciones de manera consistente.
En estas gráficas se muestran las diferencias entre modelos que no razonan (DeepSeek-V3) con los que sà lo hacen (DeepSeek-R1) en problemas de complejidad baja (amarillo), media (azul) y alta (rojo). Solo hay ventajas para el «razonamiento» en los problemas de dificultad media. En los de alta los modelos sencillamente colapsan. Fuente: Apple.
Clasificación de Problemas. La evaluación distinguió tres tipos de problemas para determinar si los modelos de razonamiento aportaban beneficios sobre los modelos tradicionales que no «razonan».
- Problemas de baja complejidad: los modelos de razonamiento superaban a los que carecÃan de esta capacidad, aunque tendÃan a dedicar demasiado tiempo a resolver problemas simples.
- Problemas de complejidad media: existÃa cierta ventaja respecto a modelos convencionales, pero no era significativa.
- Problemas de alta complejidad: todos los modelos resultaron incapaces de resolver estos problemas.
El Mito de que «Piensan». Según los investigadores, la razón de este fracaso es que estos modelos no «razonan» en lo absoluto; solo aplican técnicas avanzadas de reconocimiento de patrones, las cuales no son efectivas para resolver problemas complejos. En teorÃa, con instrucciones claras y más recursos, estos modelos deberÃan mejorar, pero el estudio demuestra lo contrario.
Aún Lejos de Alcanzar la AGI. Los resultados sugieren que la anticipación por estos modelos ha sido infundada: no logran evolucionar más allá de ciertas barreras por mucho que se aumenten los datos o la computación. Algunos veÃan en estos modelos una ruta hacia la AGI, pero las conclusiones apuntan a que aún estamos lejos de lograr una inteligencia artificial general.
Memorizan Soluciones, No las Generan. El estudio también ratificó lo que otros ya habÃan sospechado: estos modelos simplemente memorizan el conocimiento y reproducen soluciones memorizadas cuando encuentran patrones que coinciden. Asà logran resolver problemas ya conocidos como las torres de Hanoi, pero fracasan en otros puzzles nuevos.
Los «Loros Estocásticos». Muchas crÃticas hacia la IA se centran en que, razonen o no, son como loros que repiten lo que se les ha enseñado. Estos modelos detectan patrones y predicen la próxima palabra o pixel al generar texto o imágenes. Aunque el resultado es convincente, no es conocimiento nuevo, sino una mera repetición de lo aprendido.
Sin Capacidad Real de Pensamiento. Expertos llevan tiempo advirtiendo sobre el error de atribuir caracterÃsticas humanas a las IAs. Subbarao Kambhampti, de la Universidad de Arizona, avanzó que aunque usamos verbos como «pensar», estos modelos no piensan ni entienden lo que hacen, lo que lleva a falsas asunciones sobre sus capacidades.
Cautela con lo que Dice la IA. El comportamiento de estos modelos subraya lo que ya se sabe desde la llegada de ChatGPT. Pese a ser convincentes, pueden cometer errores significativos. Aunque en ocasiones logran sorprender con su capacidad de resolver problemas complejos, como experimentaron matemáticos en Scientific American, donde una IA resolvió problemas que ellos no podÃan, estas ocasiones son excepcionales.
Resultados Inconclusos. Estos hallazgos contrastan con otros benchmarks recientes de EpochAI que indicaban lo contrario, sugiriendo un buen desempeño de los modelos de razonamiento en problemas matemáticos complejos. Jaime Sevilla, fundador de EpochAI, mencionó que Apple pudo haber usado una longitud de contexto insuficiente, lo que habrÃa generado un posible conflicto en los modelos. Además, la probabilidad de error incrementa exponencialmente en soluciones largas, aun si el razonamiento es correcto y confiable. Otros expertos señalan que los modelos no pueden generar tanto debido a lÃmites en la ventana de contexto empleada por Apple.
Imagen | Puzzle Guy
Deja una respuesta