Onderzoekers onthullen dat het Meta Llama 3.1 AI-model inbreuk maakt op auteursrechten - het kan 42 procent van het eerste Harry Potterboek herinneren

Via: Anry Sergeev | vandaag, 11:18
AI-evolutie: hoe collages het landschap van kunstmatige intelligentie veranderen Collage. Bron: DALL-E

Onlangs heeft een studie van Stanford, Cornell en West Virginia University aangetoond dat Meta Llama 3.1 (70B), uitgebracht in juli 2024, bewust 42% van het eerste Harry Potterboek heeft gememoriseerd, zodat het passages van 50 tokens kan reproduceren met een kans van meer dan 50%. Met andere woorden, het model onthoudt niet alleen de verhaallijn - het kan volledige stukjes tekst reproduceren als het de eerste zin krijgt. Ter vergelijking, het oude model herinnerde zich slechts 4,4%.

Wat is er gebeurd

Een groep onderzoekers heeft gecontroleerd hoe goed het nieuwe Llama "vast" bleef aan boeken. Het bleek dat als de tekst zeer populair is (zoals Harry Potter of The Hobbit), de AI grote stukken kan herhalen. Minder bekende boeken (bijvoorbeeld Sandman Slim) wekten echter niet veel enthousiasme: het model herinnerde zich minder dan 1% ervan.

Wetenschappers gebruikten een speciale methode die laat zien hoe zeker het model is van elk volgend woord - en dit vertrouwen was zo hoog dat het duidelijk werd dat het het zeker eerder had gezien.

Hoe is het gemeten

Ze gebruikten de methode om de kansen van opeenvolgende tokens te analyseren: als, na het vervangen van de eerste 50 tokens uit de passage, het model de volgende reproduceert, werd dit beschouwd als een teken van memorisatie.

Waarom is dit belangrijk

  • Omdat boeken auteursrechtelijk beschermd zijn, en AI zou ze niet zomaar zoals een printer moeten reproduceren.
  • Als het Harry Potter uit het hoofd kan herhalen, zal het in de toekomst gemakkelijk zijn om hele boeken te genereren die lijken op een kopie, maar met een nieuwe naam.
  • Dit is geen leren meer, het is Ctrl+C en Ctrl+V, en de advocaten gingen onmiddellijk in de "aha, je bent betrapt!" modus.

Waarom is dit gebeurd?

Omdat Meta dit model heeft getraind op 15 biljoen woorden, wat veel is. Misschien omvatte de training niet alleen boeken, maar ook forums, fansites en recensies met citaten - hoe vaker een tekst in de dataset voorkwam, hoe vaker het het model beïnvloedde.

En wat nu?

Als advocaten kunnen bewijzen dat AI teksten bijna letterlijk reproduceert, kan dit grote problemen betekenen voor Meta. Vooral omdat hun model open is en iedereen het kan controleren. Gesloten taalspecifieke modellen (OpenAI, Anthropic en Google) kunnen ook soortgelijke problemen hebben, maar het is veel moeilijker te bewijzen. Dit maakt het moeilijker voor Meta om zich te verdedigen op basis van eerlijke gebruik - een rechtbank kan geheugen beschouwen als bewijs dat het model een afgeleide maakt van een groot deel van de teksten. Het zal ook moeilijk zijn om te zeggen dat dit "niet meer dan patronen" zijn.

Ironisch genoeg kan de transparantie waarop de makers van Llama trots zijn, nu tegen hen werken.

Dat wil zeggen, dit taalspecifieke model kan Meta nu echte rechtszaken bezorgen, omdat het teksten heeft "gescraped" die het niet zo nauwkeurig had moeten onthouden. Aan de ene kant kan de rechtbank de eisen voor modellen met open gewichten aanscherpen: "geef de schalen en je krijgt het bewijs tegen je". Aan de andere kant kunnen instellingen en rechtbanken die transparantie waarderen, dit opmerken. Meta en anderen kunnen dit gebruiken als een argument dat openheid een "dienst" en "verantwoordelijkheid" is.

Bron: understandingai.org