Revelaron que una reconocida empresa de Inteligencia Artificial destruyó millones de libros físicos para entrenar a su chatbot

La carrera de la tecnología generativa está en su punto, quizás, más vertiginoso. Muchos podrían imaginarse una situación bastante gráfica tras la revelación de los últimos documentos oficiales de Anthropic: un robot devorando millones de ejemplares físicos y tragando todo su conocimiento. Aunque la escena no fue precisamente de esta manera, la reconocida startup se propuso digitalizar y eliminar todo ese acervo para hacer más poderoso a su chatbot.

Entrenar un modelo de inteligencia artificial requiere una enorme cantidad de contenido. Y aunque muchos pensarían que en la era digital la principal fuente serían páginas web, videos y archivos disponibles en el almacenamiento de computadoras, resulta que los volúmenes impresos también son materia prima de la IA. De hecho, la firma procesó millones de ellos para construir su asistente, Claude, y lo hizo destruyendo las copias para ganar velocidad y efectividad.

Un ambicioso y destructivo proyecto

El llamado “Proyecto Panamá” apareció en los registros secretos de Anthropic que a principios de 2024 encaraba una ambiciosa iniciativa. En uno de los archivos de planificación interna revelado la semana pasada, los ejecutivos de la startup advertían que sería “su esfuerzo por escanear destructivamente todas las obras del mundo”.

En aproximadamente un año, según los papeles presentados y mencionados por The Washington Post, la compañía había gastado decenas de millones de dólares para adquirir y cortar los lomos de millones de unidades, antes de capturar ópticamente sus páginas para alimentar con más información los sistemas detrás de productos como su popular herramienta, Claude.

Del "pirateo" digital al escaneo físico

La trama detrás del Proyecto Panamá surge de una necesidad crítica. Según los testimonios judiciales de una demanda por derechos de autor, los fundadores de Anthropic teorizaron que entrenar a la IA con títulos publicados era la única forma de que el chatbot aprendiera a "escribir bien", alejándose del lenguaje de baja calidad que abunda en internet.

Sin embargo, el camino hacia esa sofisticación estuvo lleno de grises legales. Antes de recurrir a las guillotinas hidráulicas para cortar tomos físicos, la empresa admitió haber explorado "bibliotecas paralelas" como LibGen, sitios conocidos por albergar contenido pirata. Fue precisamente esta maniobra la que llevó a la firma a enfrentar una demanda colectiva que se resolvió recientemente con un acuerdo de 1.500 millones de dólares para compensar a autores y editores.

El cementerio de papel en Silicon Valley

Para llevar a cabo el procesamiento físico y evitar más conflictos legales por piratería digital, Anthropic contrató a veteranos del sector, incluidos exejecutivos de Google Books, según detalló The Washington Post. La logística habría sido de índole cinematográfica:

- Adquisición masiva: Compraron millones de ejemplares a través de librerías de segunda mano y proveedores de textos usados como Better World Books.

- Proceso destructivo: Los libros eran llevados a centros de digitalización donde máquinas industriales cortaban el lomo para liberar las páginas y procesarlas a máxima velocidad.

- Reciclaje final: Una vez que el conocimiento pasaba a los servidores, el papel físico era enviado a plantas de tratamiento de residuos.

Una carrera por el conocimiento humano

Anthropic no está sola en esta carrera. Los documentos revelan que gigantes como Meta (Facebook) también discutieron internamente los riesgos éticos y legales de utilizar libros piratas. En correos internos de Meta, empleados expresaron su incomodidad por descargar contenido vía torrents, una práctica que habría sido autorizada bajo el visto bueno de Mark Zuckerberg para no quedar atrás frente a competidores como OpenAI.

Por ahora, la justicia estadounidense dio señales mixtas. Mientras algunos jueces consideran que el entrenamiento de la IA es un "uso legítimo" porque transforma el material en algo nuevo, la forma en que se obtienen esos datos sigue siendo el campo de batalla legal. Lo que queda claro es que, en la carrera por la inteligencia artificial, el conocimiento humano contenido en los libros es el combustible más preciado, incluso si para obtenerlo hay que reducirlos a pulpa de papel.