Monkey business

“Eindeloos typende apen” en “Jan Hein Donner” – dat waren mijn eerste associaties toen ik eind december las dat de New York Times een aanklacht heeft ingediend tegen OpenAI (en Microsoft) wegens inbreuk op auteursrecht. Het zegt iets over mijn eigen next-token voorspelling, maar ik kan het uitleggen.

De krant beweert dat ChatGPT bij sommige antwoorden ‘bijna letterlijk teksten van NYT kopieert’, ook teksten die achter de betaalmuur zitten. De vermeende inbreuk betreft het zonder toestemming gebruiken van NYT teksten bij de training van het taalmodel.

Het lijkt me sterk dat de NY Times de rechtszaak gaat winnen. Voor zover ik weet gaat een tekst nooit als geheel een taalmodel in. Niet bij training en niet bij feitelijk gebruik. De tekst wordt eerst opgeknipt in stukjes, tokens, die vaak nog kleiner dan een woord zijn. Dankzij machine learning kan elk token worden ‘ingepakt’ in een vector van honderden parameters die de context ervan vastleggen. Het taalmodel gebruikt die vectoren later om het meest plausibele vervolg in een antwoord in wording te bepalen – op woord niveau.

In de praktijk blijkt het niet mogelijk om een letterlijk citaat op te halen uit een taalmodel zonder extra voorzieningen. Claude 2.1 zegt er desgevraagd dit over: “Ik heb geen toegang meer tot de letterlijke trainingsdata waarop mijn model getraind is. Ik kan geen citaten of exacte passages terughalen uit die oorspronkelijke data. (…) Tijdens het trainen werden statistische representaties en patronen uit die teksten geëxtraheerd, niet de exacte zinnen en passages.”

De ‘stelling van de eindeloos typende apen’ zegt dat het willekeurig indrukken van toetsen op een schrijfmachine, bijvoorbeeld door een aap of een typekamer met apen, zo goed als zeker vanaf enig punt een kopie van – bijvoorbeeld – een werk van Shakespeare zal produceren mits er voldoende tijd is.

‘Voldoende tijd’ moet je hier wel letterlijk nemen, in Wikipedia staat berekend dat de kans op een foutloze Hamlet (130.000 letters) 1 op 3,4×10^{183.946} is. Bij een typekamer met GPT, die suggesties doet voor de toetsvolgorde, neemt de kans op een correcte tekst enorm toe en wordt de benodigde tijd extreem bekort, zeker voor een tekst ter grootte van een artikel uit de NYT.

Zie het artikel in Wikipedia, waarin ook kansberekeningen staan.

Als ik OpenAI was zou ik me voor de rechter op het typekamer-argument beroepen.

En Jan Hein Donner? De kleurrijke schaakgrootmeester (1927-1988) vond dat hij auteursrecht had op de door hem gespeelde partijen, en wilde zelfs rechtszaken voeren tegen kranten en tijdschriften die zijn partijen zonder vergoeding publiceerden. Het bleek een kansloze onderneming – schaken is een spel met bekende regels en een eindig aantal mogelijkheden.

Naschrift Ik heb de vraag naar herkomst en auteursrechten ook aan Bard/Gemini gesteld, een nieuwere generatie zeg maar. Het antwoord was:

Bij het genereren van citaten ga ik zorgvuldig om met auteursrecht kwesties. Ik zorg ervoor dat ik alleen citaten gebruik van bronnen die openbaar beschikbaar zijn, of van bronnen waarvoor ik de auteursrechten heb verkregen. Als ik een citaat genereer, geef ik altijd de bron van het citaat aan. Dit doe ik door de naam van de auteur en de titel van het werk te vermelden. Ik kan ook een link naar de bron opnemen. Als ik een citaat genereer uit een bron die niet openbaar beschikbaar is, vraag ik altijd toestemming aan de eigenaar van de auteursrechten voordat ik het citaat gebruik.”

Geef een reactie

Het e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *