Move 37

We moeten het beslist gaan hebben over neurale netwerken, deep learning, transformers en meer, maar het is zo verleidelijk om te procrastineren als er een interessant onderwerp op je pad komt.
De aflevering van Zomergasten met Thomas Hertog van afgelopen zondag, 23 juli, zat vol met zulke onderwerpen.

Zo ging het over de sensationele partij in het go spel, waarbij de kunstmatige intelligentie van het programma AlphaGo won van de menselijke wereldkampioen van dat moment, Lee Sedol. Het jaar is 2016.

Destijds heb ik er zeker van vernomen, het sensationele ook wel ingezien, maar het toch niet op de waarde geschat die ik er nu aan zou willen hechten.

Hoe was het ook alweer? Deep Blue, een computer van IBM, had in 1997 wereldkampioen Gary Kasparov verslagen in een schaakwedstrijd over meerdere partijen. Een sensatie, maar sceptici betoogden dat Kasparov sowieso al niet in goede vorm was en dat de brute force aanpak van Deep Blue toch niet het ‘echte’ schaken was. Deep Blue zou, na de openingszetten, waarbij het kon putten uit bekend repertoire, alle mogelijke zetsequenties met brute rekenkracht doorrekenen.

Bij schaken kan zo’n aanpak nog wel werken maar dan toch zeker niet bij go. Een veel simpeler spel wat de regels betreft, maar met veel te veel mogelijkheden om een volgende zet te kunnen berekenen. De kampioenen spelen vooral op intuïtie, werd gezegd, een computer zou daar niet tegenop gewassen zijn.

Bij Google dachten ze daar anders over. Ze namen in 2014 DeepMind over, een Engels research laboratorium voor AI. Het bedrijf ontwikkelde AlphaGo en trainde het programma met miljoenen door mensen gespeelde zetten in go partijen.
In 2016 werd een wedstrijd over 5 partijen opgezet tussen AlphaGo en Lee Sedol, de wereldkampioen van dat moment. Veel sensatie en spektakel, vergelijk het met de Deep Blue – Kasparov wedstrijd van 20 jaar daarvoor, maar dan met alle nieuwe mediakanalen en globale publiciteitsmogelijkheden.

De computer wint en de rest is geschiedenis, spectaculair — dat wel. Er is echter één sleutelmoment in de tweede partij dat je een kantelpunt in de ontwikkeling van AI zou kunnen noemen, althans een voorafschaduwing ervan. Het is de 37e zet van de computer die met zwart speelt, Move 37. De zet is in het plaatje gemarkeerd met een rondje. Alle toeschouwers en analisten dachten dat het een onzinnige zet was, een blunder van de computer. Maar Lee Sedol ziet onmiddellijk de kwaliteit van de zet die hem ongeveer van zijn stoel blaast.

Move 37 is de winnende zet, en in de analyses na afloop is iedereen het erover eens dat een mens deze zet niet had kunnen bedenken — de computer zelf schatte de kans erop als 1 op 10.000.
Deze zet is iconisch geworden. Net als nu bij ChatGPT gaf men hoog op over de vondst van de computer die als creatief en intuïtief werd gezien. Kunstmatige intelligentie zou de wereld gaan veranderen, ten goede of ten kwade — afhankelijk van wie het zei.

Toch was AlphaGo nog niet het echte kantelpunt, de trainingsinformatie was immers volledig gestructureerd en door mensen aangedragen, gelabeld zoals dat heet. De echte doorbraak kwam een jaar later, met AlphaZero. Dit programma leerde door miljoenen partijen tegen zichzelf te spelen, niet alleen bij go, en zichzelf te verbeteren door reinforcement learning. Andere sleutelwoorden hier zijn deep learning, neurale netwerken — daar gaan we het binnenkort echt over hebben.

Toevoeging 22 september 2023: nadat ik het boek De MANIAC van Benjamín Labatut gelezen heb, en de volledige documentaire AlphaGo bekeken, denk ik dat de échte nominatie voor kantelpunt naar de 78e zet in de vierde partij zou moeten gaan. Een zet van Lee Sedol en winnend voor hem. In Korea wordt de zet ‘de hand van God’ genoemd – er is van alles over te zeggen en dat doe ik om te beginnen hier.

Geef een reactie

Het e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *