NVIDIA neemt contact op met Anna’s Archive om toegang te krijgen tot miljoenen illegaal opgeslagen boeken
NVIDIA-topmannen zouden de toegang tot miljoenen gepirateerde boeken van Anna’s Archive hebben geregeld om hun kunstmatige intelligentie te trainen. In een uitgebreide collectieve rechtszaak, gebaseerd op interne NVIDIA-documenten, stellen verschillende auteurs dat het miljardenbedrijf zelf contact heeft gezocht met Anna’s Archive. Zij wilden snelle toegang tot de data van deze zogenaamde ‘schaduwbibliotheek’.
De chipgigant NVIDIA is een van de grote winnaars van de kunstmatige intelligentie (AI)-revolutie. De omzet steeg explosief door de enorme vraag naar hun AI-chips en datacenter-diensten, en die groei blijft aanhouden.
Naast het verkopen van populaire hardware ontwikkelt NVIDIA ook eigen AI-modellen, zoals NeMo, Retro-48B, InstructRetro en Megatron. Deze modellen worden met eigen hardware getraind, vaak met behulp van enorme tekstbibliotheken, net als andere grote technologiebedrijven doen.

Auteurs Dagvaarden NVIDIA wegens Auteursrechtinbreuk
Net als bij andere techbedrijven, krijgt ook NVIDIA sterke juridische tegenwind van auteursrechthebbenden vanwege de manier waarop zij AI trainen. Verschillende auteurs hebben het bedrijf aangeklaagd omdat ze hun modellen trainen met gepirateerde boeken.
Begin 2024 spanden meerdere auteurs een rechtszaak aan tegen NVIDIA vanwege vermeende schending van auteursrechten. Zij stellen dat het bedrijf zijn AI-modellen trainde met de dataset Books3, waar ook auteursrechtelijk beschermde werken in zitten die afkomstig zijn van de piratensite Bibliotik. Omdat dit zonder toestemming gebeurde, eisen de auteurs een schadevergoeding.
NVIDIA verdedigde zich door te zeggen dat het gebruik van boeken onder de ‘fair use’-regel valt: een boek is voor hun AI slechts een reeks statistische correlaties. Toch verdwenen de beschuldigingen niet. Sterker nog, tijdens het onderzoek vonden de eisers nog meer bewijs.
‘NVIDIA Nam Contact op met Anna’s Archive’
Afgelopen vrijdag dienden de auteurs een aangepaste klacht in, waarmee de zaak flink werd uitgebreid. Er werden meer boeken, meer auteurs en extra AI-modellen aan toegevoegd, evenals een ruimer kader rondom vermeende ‘schaduwbibliotheken’ en andere beschuldigingen.
Onder de auteurs die klagen, zoals Abdi Nazemian, zijn nu ook verschillende interne e-mails en documenten van NVIDIA zichtbaar, die laten zien dat het bedrijf bewust miljoenen beschermde boeken heeft gedownload.
De nieuwe klacht beweert dat “concurrentiedruk NVIDIA naar piraterij dreef”. Dit zou zelfs samenwerking met de beruchte bibliotheek Anna’s Archive omvatten.
Concurrentiedruk
Volgens de aangepaste klacht nam iemand van NVIDIA’s datastrateeg-team contact op met Anna’s Archive om te onderzoeken wat deze piratenbibliotheek het miljardenbedrijf kon bieden.
“Verlangend naar boeken nam NVIDIA contact op met Anna’s Archive — de grootste en meest gedurfde van de overgebleven schaduwbibliotheken — om miljoenen gepirateerde materialen te verkrijgen en ‘Anna’s Archive op te nemen in de pre-trainingsdata voor onze LLM’s’,” staat in de klacht.
“Omdat Anna’s Archive tienduizenden dollars vroeg voor ‘high-speed toegang’ tot die gepirateerde collecties, wilde NVIDIA weten hoe die ‘snelle toegang’ er precies uit zou zien.”
Anna’s Archive Waarschuwde voor Juridische Risico’s
De klacht meldt dat Anna’s Archive NVIDIA vervolgens waarschuwde dat hun collectie illegaal was verkregen en beheerd. Omdat Anna’s Archive eerder tijd had verloren aan andere AI-bedrijven door juridische zorgen, vroeg de piratenbibliotheek aan NVIDIA of ze intern toestemming hadden om door te gaan.
Die toestemming werd vermoedelijk binnen een week gegeven, waarna Anna’s Archive NVIDIA toegang bood tot de piratenboeken.
“Binnen een week na contact met Anna’s Archive, en slechts dagen nadat ze gewaarschuwd waren over de illegale aard van de collectie, gaf het management van NVIDIA ‘het groene licht’ om door te gaan. Anna’s Archive bood NVIDIA miljoenen auteursrechtelijk beschermde boeken aan.”
De klacht stelt dat Anna’s Archive NVIDIA toegang heeft beloofd tot ongeveer 500 terabyte aan data. Dat omvat miljoenen boeken die normaal alleen via het digitale uitleensysteem van Internet Archive beschikbaar zijn, die zelf ook in juridische problemen zit.
Of NVIDIA daadwerkelijk betaald heeft aan Anna’s Archive wordt niet vermeld.
Daarbij komt dat NVIDIA ook beschuldigd wordt van het gebruik van andere piratenbronnen. Naast de Books3-database zou nog meer materiaal afkomstig zijn van LibGen, Sci-Hub en Z-Library.
Directe en Middellijke Auteursrechtinbreuk
Naast het downloaden en gebruiken van gepirateerde boeken voor hun AI, luiden de aanklachten dat NVIDIA ook scripts en tools verspreidde waarmee hun zakelijke klanten automatisch “The Pile” konden downloaden – de dataset die onder andere het Books3-materiaal bevat.
Hierdoor rijzen klachten over zowel directe als middellijke inbreuk: NVIDIA zou winst hebben gemaakt doordat ze klanten toegang faciliteerden tot deze gepirateerde datasets.
Op basis van deze en andere beschuldigingen eisen de auteurs een vergoeding voor de schade die zij hebben geleden. Dit geldt niet alleen voor de genoemde auteurs, maar mogelijk ook voor honderden anderen die later nog aansluiten bij de collectieve rechtszaak.
Voor zover bekend is dit de eerste keer dat interne communicatie tussen een grote Amerikaanse techgigant en Anna’s Archive publiekelijk wordt. Dit zal de bekendheid van de piratenbibliotheek, die onlangs meerdere domeinnamen verloor, alleen maar vergroten.






