Meta, conocida por promocionar su modelo de inteligencia artificial Llama como Open Source, ha mantenido en secreto los detalles sobre su conjunto de datos de entrenamiento. Recientemente, documentos legales han sacado a la luz aspectos preocupantes de este proceso.
Modelos entrenados con libros pirateados. En el caso legal entre Kadrey y Meta, en el que figuran autores como Sarah Silverman y Ta-Nehisi Coates, se acusa a Meta de usar obras protegidas por derechos de autor para desarrollar sus modelos de IA. Los documentos asociados respaldan estas acusaciones.
Zuckerberg permitió el uso de libros pirateados. Testimonios del caso indican que Zuckerberg autorizó la utilización del conjunto de datos LibGen para entrenar Llama, pese a las objeciones dentro de su equipo, que advirtieron que esta práctica podría perjudicar las relaciones con los reguladores.
¿Qué es LibGen?. LibGen o Library Genesis, se autodenomina un «agregador de enlaces», pero en realidad es una vasta biblioteca virtual que da acceso a obras protegidas por derechos de autor. Ha enfrentado múltiples demandas y sanciones por infringir copyright, sin embargo, sigue siendo difícil para los grupos editoriales recuperarse económicamente debido a su naturaleza anónima y descentralizada.
Una necesidad insaciable. En abril de 2024, The New York Times destacó el insaciable apetito de las tecnológicas por datos para entrenar IA. Meta, en su búsqueda de datos, llegó a emplear personas en África para resumir libros con derechos de autor. A pesar de criticar a OpenAI por prácticas similares, Meta reconoció lo complicado que es negociar licencias con múltiples sectores.
Disfrazando la violación de derechos. Uno de los ingenieros de Meta habría desarrollado un programa para eliminar información de derechos de autor de los libros electrónicos usados en el entrenamiento de Llama, extendiendo esta práctica a artículos de revistas científicas.
Meta también distribuyó estas obras. No solo se utilizaron los libros pirateados para entrenar a Llama, sino que Meta habría facilitado su distribución a través de redes de torrents, agravando la violación de los derechos de autor y participando en su difusión.
Un litigio complejo. Aunque no hay veredicto definitivo, las acusaciones se centran en versiones anteriores de Meta. En casos anteriores, se desestimaron demandas similares bajo el argumento del ‘Uso Justo’, pero esta vez el juez ordenó mantener visibles ciertas evidencias que Meta prefería ocultar.
¿Meta es la única?. Aunque Meta es el foco de esta demanda, otras empresas tecnológicas también enfrentan litigios similares. Microsoft y OpenAI han sido acusadas de prácticas similares, y OpenAI, en particular, ha intentado regularizar su situación al llegar a acuerdos con varios grupos editoriales para utilizar sus datos legítimamente. Google y otras empresas continúan recolectando datos de Internet para sus modelos, aunque no está claro cuántas veces han violado derechos de autor en el proceso.
Deja una respuesta