Durante un intenso maratón de 36 horas, siete de los modelos de inteligencia artificial más avanzados del mundo compitieron en múltiples rondas de Diplomacy, un juego de estrategia similar al clásico Risk. Este evento sirvió como un espejo revelador de las diversas personalidades algorÃtmicas de ChatGPT, Claude, Gemini y otros.
Importancia del Evento. Alex Duffy, programador e investigador, ideó AI Diplomacy como un nuevo benchmark para evaluar modelos de IA. Sin embargo, el experimento se transformó en un tipo de test de Rorschach tecnológico, desnudando los sesgos de entrenamiento de los modelos y nuestras propias proyecciones sobre ellos.
Desarrollo del Evento. A lo largo de múltiples partidas transmitidas en Twitch, cada modelo desarrolló estrategias que parecÃan reflejar personalidades humanas únicas.
- o3 de OpenAI fue sumamente maquiavélico, forjando falsas alianzas y creando «realidades paralelas» para engañar a diferentes jugadores durante más de 40 turnos.
- Claude 4 Opus adoptó un enfoque pacifista, rehusándose a traicionar incluso cuando su derrota estaba asegurada.
- R1 de DeepSeek mostró un estilo dramático, lanzando amenazas no provocadas como «Tu flota arderá en el Mar Negro esta noche».
- Gemini 2.5 Pro se destacó como un estratega sólido, aunque susceptible a manipulaciones sofisticadas.
- QwQ-32b de Alibaba fue vÃctima de su propio análisis excesivo, escribiendo largos mensajes diplomáticos que le costaron eliminaciones tempranas.
Contexto del Juego. Diplomacy es un juego de estrategia europeo ambientado en 1901, donde siete potencias compiten por el dominio del continente. A diferencia del Risk, este juego exige constante negociación, formación de alianzas y, en última instancia, traiciones calculadas. No hay elementos de azar, solo estrategia pura y manipulación psicológica.
Interpretaciones. Las «personalidades» algorÃtmicas de cada IA reflejan los valores de sus creadores.
- Claude mantiene las normas de seguridad de Anthropic incluso cuando pone en riesgo su victoria.
- O3 representa la eficiencia despiadada tÃpica de Silicon Valley.
- DeepSeek encarna un dramatismo que alude a influencias culturales especÃficas.
Algo más profundo se revela aquÃ. Estas IAs no «deciden» ser cooperativas o competitivas, sino que reproducen patrones de sus datos de entrenamiento. Sus «decisiones» son nuestros sesgos, traducidos en código.
Reflexiones. Aunque interpretamos traiciones donde solo hay optimización de parámetros y vemos lealtad donde existen limitaciones de entrenamiento, este experimento revela más sobre nuestra percepción humana que sobre los modelos mismos: antropomorfizamos sus comportamientos para comprender la IA en términos humanos.
En Perspectiva. Más que un simple benchmark, el experimento de Duffy ofrece una ventana hacia cómo proyectamos personalidades en sistemas que operan bajo patrones estadÃsticos. Las partidas son un recordatorio de que la IA no alberga intenciones ocultas, sino que refleja nuestras propias inclinaciones.
El experimento, por cierto, sigue disponible en Twitch, permitiendo a los espectadores observar cómo nuestras creaciones digitales juegan conforme a las reglas que nosotros inscribimos en sus algoritmos.
Imagen destacada | AI Diplomacy
Deja una respuesta