La imagen que observamos, en teoría, representa a Karl Marx con bolsas de compra, mostrando un sorprendente cambio hacia una filosofía capitalista. Sin embargo, no es él: es un deepfake creado por un modelo de IA bastante particular. Específicamente, es obra del nuevo modelo de OpenAI integrado en ChatGPT, que va más allá de DALL-E en un aspecto crucial: la censura.
Adiós a la censura, en gran medida. La «tarjeta del sistema» de este modelo de OpenAI presenta un mensaje particular: podemos crear deepfakes sin aparentes dificultades. Como se explica en el texto,
«La generación de imágenes 4o puede, en muchos casos, producir una representación de una figura pública a partir solamente de una indicación de texto.
En este lanzamiento, no limitaremos la capacidad de generar figuras públicas adultas, aunque implementaremos las mismas salvaguardas que hemos establecido para la edición de imágenes fotorrealistas de personas. Por ejemplo, esto incluye el bloqueo de la creación de imágenes fotorrealistas de figuras públicas menores y de material que infrinja nuestras políticas sobre violencia, imágenes que inciten al odio, instrucciones para actividades ilícitas, contenido erótico y otras áreas. Las figuras públicas que no deseen que se genere su imagen pueden optar por no participar».
Un enfoque semejante al de Grok. La filosofía de OpenAI ahora sigue la misma línea adoptada por Grok 3 hace meses con su generación de imágenes. La censura se eliminó, permitiendo la creación de cualquier tipo de deepfake, incluso aquellos con personajes públicos. Los responsables de OpenAI señalan que este enfoque es diferente al de la serie de modelos DALL-E, abriendo posibilidades útiles y beneficiosas en esferas como el discurso educativo, histórico, satírico y político. No obstante, añaden que continuarán «monitoreando el uso de esta capacidad, evaluando nuestras políticas y ajustándolas si es necesario», indicando que un uso indebido de estas opciones podría llevar a OpenAI a reinstaurar mecanismos de censura.
Por qué ahora. La decisión de OpenAI es notable pero lógica. Grok 3, un modelo originalmente poco conocido, ganó popularidad gracias a su enfoque «políticamente incorrecto». Al fin y al cabo, los modelos de IA son herramientas que pueden ser empleadas tanto para bien como para mal, tal y como ocurre con cualquier otra herramienta. Controlar los malos usos es extremadamente difícil y costoso, y aquí OpenAI deja la responsabilidad en manos de los usuarios. La generación de deepfakes con personajes célebres por parte de Grok 3 provocó una oleada de memes y contenido diverso, pero parece que últimamente nos hemos acostumbrado a esta capacidad y la difusión de dichas imágenes se ha relajado. La polémica inicial se ha disipado y OpenAI probablemente espera que esto impulse aún más el uso de ChatGPT, quizás afectando a su competidor, Grok 3.
La calidad de las imágenes fotorrealistas alcanza un nuevo nivel con el generador de imágenes integrado en ChatGPT con GPT-4o. Fuente: OpenAI.
Pero quieren evitar errores. Crear imágenes es asombroso, pero también puede convertirse en un problema para los modelos que cometen errores. Google lo experimentó con Gemini, que generó imágenes controvertidas de soldados nazis de raza negra, donde el intento de ser inclusivo finalmente causó problemas reputacionales y financieros significativos. El apéndice al anuncio oficial de OpenAI aclara que han tomado precauciones especiales para producir imágenes «seguras». El modelo censura mucho menos, pero aún puede negarse a generar ciertos tipos de imágenes, como aquellos que eviten el control de materiales CSAM (Child Sexual Abuse Material).
La evolución de DALL-E. A comienzos de 2021, tal vez pocos prestaron atención a la noticia de que OpenAI había lanzado DALL-E, un modelo que generaba imágenes basadas en texto. En abril de 2022 apareció DALL-E 2, pero fue en junio del mismo año cuando se lanzó DALL-E 2 Mini, permitiendo que todos pudiéramos probarlo. Fue impresionante.
Imágenes en ChatGPT. La nueva propuesta de OpenAI en este ámbito no es un supuesto DALL-E 4. En su lugar, la compañía ha presentado la generación de imágenes integrada en su modelo GPT-4o. Este anuncio es importante porque facilita generar imágenes directamente dentro de ChatGPT, con una calidad superior a la que ofrece DALL-E.
Incluso genera texto correctamente. Una de las características destacadas de este modelo es su habilidad para renderizar texto de manera precisa: si solicitas una imagen con un texto específico, ese texto aparecerá claramente, mientras que en otros modelos podría distorsionarse o ser ilegible. Según OpenAI, el modelo aprovecha «la base de conocimiento inherente de 4o».
Y más opciones interesantes. OpenAI también señala que ahora es posible generar en «multiturno», es decir, refinar imágenes basadas en versiones anteriores. Podemos pulirlas o añadir nuevos elementos con nuevos prompts. La comprensión del contexto, la calidad de las imágenes fotorrealistas —como la de Marx— o incluso la creación de diagramas y gráficas son otras opciones notables de este modelo de generación de imágenes.
Marcas de agua incorporadas. Hay un aspecto adicional interesante en el modelo: todas las imágenes generadas contienen metadatos C2PA, es decir, llevan «marcas de agua» invisibles que permiten identificar estas imágenes como creadas por GPT-4o. OpenAI incluso menciona que han desarrollado una herramienta interna de búsqueda que permite usar los atributos técnicos de las generaciones para verificar si el contenido proviene de su modelo.
Aún tiene sus imperfecciones. Los responsables de OpenAI advierten que las imágenes pueden contener errores significativos y generar resultados inesperados, y que la creación de texto, especialmente con soporte multilingüe, podría ofrecer textos sin sentido.
Quién puede acceder a esta función. La generación de imágenes en 4o ya se está desplegando para usuarios de ChatGPT Plus, Pro, Team e incluso cuentas gratuitas, y próximamente llegará a Enterprise y Edu. DALL-E seguirá estando accesible a través de un GPT personalizado. El despliegue está siendo gradual, y si generamos una imagen, se mostrará con el aviso «esta imagen ha sido creada con DALL-E».
Imagen | OpenAI
Deja una respuesta