Attention! – A woven web of guesses

‘Attention. Attention. Here and now boys‘. Op het eiland Pala, in de roman Island (1962) van Aldous Huxley, leven honderden mynah birds die getraind zijn de eilandbewoners met hun geroep in het hier en nu te houden.

Mynah birds bestaan echt, in Azië. In het Nederlands heten ze maina (Hindi voor ‘spreeuw’). Ze staan bekend om hun vermogen geluiden na te bootsen, inclusief menselijke spraak. Het lijkt of ze ‘echt’ kunnen praten, maar het is alleen nadoen, napraten. Ze papegaaien (hoewel het dus spreeuwen zijn). Wel wordt er door sommigen gedacht dat de vogels gevoel voor context of betekenis zouden moeten hebben, maar daar is geen bewijs voor.

Is het niet grappig dat tegenwoordig precies hetzelfde gezegd wordt over taalmodellen en chatbots, zoals ChatGPT?

Het zou hier wel erg off topic zijn om Aldous Huxley in verband te brengen met AI, al zou het kunnen als het gaat over zijn gedachten over perceptie en bewustzijn. Mijn associatie nu ligt echter bij het concept Attention.

In 2017 verscheen het artikel Attention is all you need van Ashish Vaswani et al. Hij en zijn medeauteurs werkten voor Google, dat al volop bezig was met neurale netwerken op het gebied van taalmodellen en machinevertaling.
Het artikel introduceert de Transformer architectuur van neurale netwerken. Inderdaad de ‘T’ van GPT. Het zogenoemde attention mechanism vormt er de kern van. De Transformer architectuur is een pijler van GPT en een van de sleutelelementen waarnaar ik op zoek ben gegaan.

In volgende berichten kom ik op het transformer aspect terug, ik zal dan ook proberen uit te leggen hoe, en in welke architectuur, aandachtsmechanismen worden toegepast. Het gaat om systemen die gebruikt worden om sequence-to-sequence taken te leren en uit te voeren, seq2seq in het jargon. Een vertaalsysteem is er een voorbeeld van. De invoer is een zin in de ene taal, de uitvoer is ook een zin maar dan in de andere taal. Beide zinnen zijn sequenties. Ook voor grote taalmodellen, LLM, zijn sequenties van belang – de in vloeiende natuurlijke taal geproduceerde antwoorden worden letterlijk woord voor woord opgebouwd.

Invoersequenties zijn niet zomaar geschikt om ‘woord voor woord’ gebruikt te worden. Grammaticale volgordes zijn van taal tot taal verschillend, het aanhouden van de oorspronkelijke woordvolgorde leidt tot kromme vertalingen. En van oudsher is de linguïstische uitdaging dat de betekenis van een woord soms moet worden afgeleid uit de plaatsing in de zin.
In generatieve AI systemen zijn sommige woorden in de invoer van groter belang voor de context en betekenis dan andere. En sowieso is het van belang om daar enig zicht op het geheel te houden.
Het gebruik van aandachtsmechanismen is een technische manier om het systeem bij de les te houden, een interne mynah bird die er voor zorgt dat er gelet blijft worden op de belangrijkste elementen in de invoer.

Here and now, boys. Ik doe zelf vrolijk mee met het gebruiken van antropomorfe metaforen en het is verleidelijk om te doen alsof computers sequenties van woorden kunnen gebruiken zoals wij die lezen. Het zijn niet de minste kranten die schrijven “ze (=ChatGPT) stelen onze teksten” als het gaat over het corpus waarmee de grote taalmodellen getraind worden.

Het is een vorm van antropocentrisch denken die ons niet ver genoeg brengt. Niet in mijn zoektocht waar deze website over gaat, en zeker niet in de werkelijke of juridische wereld waar precisie en zorgvuldigheid tellen.

Ik zal iets technischer moeten worden over de aard van de ‘sequenties’ waar we het over hebben. Computers kunnen weliswaar goed met data uit de voeten, maar alleen (!) als het getallen zijn. Een computer rekent immers… Daarom moeten alle gegevens die we willen invoeren omgezet worden in getalsmatige vormen, ook de woord sequenties waar het hier over gaat. Uiteraard is het resultaat dat de computer bereikt ook getalsmatig van aard, en zal het voor mensenogen naar woord sequenties omgezet moeten worden.

Jargon. Het omzetten van tekst naar getalsmatige vormen wordt vectorisatie genoemd, die vormen heten word embeddings. Dit soort systemen zijn encoder-decoder systemen.

Geef een reactieReactie annuleren