Grandes compañÃas tecnológicas como OpenAI, Google y Microsoft emplean bots rastreadores con el fin de extraer contenido de la Web para entrenar sus avanzados modelos de inteligencia artificial, tanto para la generación de textos como de imágenes.
A diferencia de los bots tradicionales que indexan contenido para motores de búsqueda (respetando usualmente las directrices de los webmasters sobre qué contenido pueden analizar), estos rastreadores de inteligencia artificial operan de manera desmedida, recolectando textos, imágenes, vÃdeos y código sin solicitar autorización.
En este contexto, la lucha entre los creadores de contenido y los recolectores de datos se asemeja a una carrera armamentista
Mientras los gigantes tecnológicos continúan refinando sus métodos de scraping para sortear restricciones, firmas como Cloudflare junto a legisladores internacionales delinean nuevas defensas. Sin embargo, los datos originados por humanos escasean cada vez más.
Reacciones de los Creadores de Contenido
En este escenario, mientras las grandes tecnológicas acumulan datos para desarrollar modelos de alto valor, los periodistas temen que sus escritos sirvan para entrenar IAs capaces de producir textos similares, devaluando su labor, y los artistas visuales reclaman por el uso de sus obras en generadores de imágenes sin permiso.
El elevado tráfico de bots también afecta negativamente al rendimiento de sitios web pequeños, encareciendo la infraestructura necesaria para mantenerse operativos.
Como respuesta, muchos creadores están decidiendo proteger sus contenidos tras muros de pago o eliminar su presencia completa de la red, lo que contribuye a una fragmentación del acceso a la información.
En el terreno legal, la Unión Europea ha avanzado con la introducción de una nueva norma de IA para 2024, que requiere consentimiento explÃcito para el uso de contenido en el entrenamiento de modelos.
En Estados Unidos, una normativa similar está en discusión, mientras compañÃas como The New York Times o Getty Images han llevado a OpenAI y Stability AI a los tribunales por el uso no autorizado de sus contenidos.
Las actividades de estos rastreadores podrÃan conllevar desde la violación de derechos de autor hasta la explotación de trabajo creativo sin compensación
La Respuesta de Cloudflare: Desorientar a las IAs con un Laberinto
Frente a este panorama, la firma de ciberseguridad Cloudflare, conocida recientemente por su enfrentamiento con LaLiga, ha desarrollado una innovadora técnica defensiva: el AI Labyrinth. Esta tecnologÃa no bloquea directamente a los bots maliciosos —acción que suele advertir a los atacantes, motivándolos a buscar nuevas vÃas de acceso—, sino que los despista redirigiéndolos a un laberinto de páginas ficticias generadas por IA.
Estas páginas, producidas con el motor Workers AI, aparentan ser auténticas y están repletas de contenido cientÃficamente válido pero irrelevante, sin conexión con el sitio web. El propósito: hacer que los crawlers pierdan tiempo y recursos procesando datos inútiles, reduciendo su eficacia para entrenar modelos de IA.
Además, al detectar bots que siguen enlaces ocultos en la estructura del sitio (invisibles para usuarios humanos), el sistema los marca automáticamente como maliciosos, enriqueciendo la base de datos de Cloudflare sobre ‘actores hostiles’, lo que (ironÃa del destino) permitirá entrenar modelos de IA centrados en mejorar la detección futura de bots.
La eficacia del AI Labyrinth reside en que no afecta la experiencia de navegación de usuarios humanos ni el SEO del sitio web. Las páginas generadas no se indexan en los buscadores y los enlaces ocultos son invisibles para navegadores legÃtimos. Se trata, esencialmente, de una trampa imperceptible diseñada por una IA para detectar otras inteligencias artificiales.
Cloudflare ha incorporado esta nueva función a sus servicios de CDN (‘Content Delivery Network’, que actúa como un puente entre el usuario y el servidor web), pero lo más destacable es que ya está disponible para todos los planes (incluso el gratuito) y los webmasters pueden activarla con un simple clic en el panel de control de Cloudflare.
Imagen | Marcos Merino mediante IA
En Genbeta | OpenAI ha utilizado con descaro millones de datos de Internet para entrenar a su IA. Ahora acusa a DeepSeek de robarles a ellos
Deja una respuesta