De pijlers van GPT

GPT is het buzzword van het moment. Het is het taalmodel onder ChatGPT, vooralsnog het meest aansprekende voorbeeld van de ontwikkelingen die ik wil onderzoeken. Versie 3 is nu gangbaar, GPT-4 is er inmiddels ook en ik zag recent Kremlin watching over GPT-5. Die vervolgen zijn niet directe ‘alsmaar groter’ doorontwikkelingen maar wellicht anders opgebouwd — daar kom ik later op terug.

Het wordt tijd om dieper in de materie te duiken, vooralsnog in de wereld van GPT-3. Daar komen nogal wat nieuwe inhoudelijke terreinen langs, voor mij dan toch, met bijbehorende vaktaal. Ik begin met de drie pijlers van GPT die in het initiaalwoord zijn terug te vinden.

GPT is een Large Language Model (LLM), en in die categorie een zogeheten foundation model. De afkorting staat voor Generative Pre-trained Transformer.

Generative

Dit soort statistische modellen kan leren van de relaties in bepaalde dataverzamelingen om daarmee nieuwe ‘data points’ te genereren, die lijken op de gegevens in de verzameling maar toch ‘nieuw’ zijn.

Pre-trained

Voordat dit soort modellen in gebruik worden genomen worden ze getraind op grote dataverzamelingen. In het geval van GPT-3 een héél grote verzameling, die uit 175 miljard berekende parameters bestaat. Zie het plaatje voor de recente ontwikkeling van omvang van dit soort verzamelingen.

Transformer

Zelfs los van de context van GPT is ‘Transformer‘ een van de kantelpunten in de ontwikkeling van AI waarnaar ik op zoek ben. Het gaat om een speciaal soort neuraal netwerk, dat in 2017 door Google is geïntroduceerd, in de context van natuurlijke taal verwerking. Dit soort modellen voor deep learning is in staat om te gaan met sequentiële data — denk aan het woord voor woord waar ik eerder over berichtte — op een zodanige manier dat niet alleen opeenvolgende woorden met elkaar in verband worden gebracht en gehouden, maar ook woorden “in de omgeving van”, met een zekere afstand in de tekst.

Geef een reactie

Het e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *