Een maat voor informatie

Om te begrijpen waar negatieve logaritme als maat voor surprise vandaan komt volg ik een spoor terug dat ligt in de moderne informatietheorie. Vaak wordt het begin ervan gelegd bij een publicatie van Claude E. Shannon, A Mathematical Theory of Communication uit 1948, waarin hij vanuit een technisch/wiskundige invalshoek communicatie los maakt van semantische aspecten. Een sleutelelement in zijn gedachtegoed komt van Ralph Hartley, hij verwijst er ook zelf naar. We gaan terug naar 1927.

In 1927 was het 100 jaar geleden dat Alessandro Volta overleed. Een passende gelegenheid voor eerbetoon aan de uitvinder van onder meer de accu en de naamgever van onze spanningseenheid volt. In Como, waar Volta geboren en ook overleden is, waren diverse activiteiten georganiseerd. Er werd een grote tentoonstelling ingericht, gewijd aan de industriële toepassingen van Volta’s werk, de bouw van de Volta Tempel werd voltooid en er werd ter ere van Volta een vuurtoren gebouwd, de Faro Voltiano.

Voor dit blog van meer belang zijn de twee internationale conferenties die van 11-20 september 1927 in Como ter nagedachtenis aan Volta werden georganiseerd.

Op het Internationaal Congres van Natuurkundigen waren veel deelnemers aanwezig die elkaar een maand later ook zouden treffen bij de 5e Solvay conferentie. Heisenberg en Bohr waren er bij in Como – het lijkt erop dat ze daar de eerste versies hebben gepresenteerd van het werk dat in Solvay zo’n impact kreeg – ik schreef er eerder over.

Voor zover ik kan nagaan gelijktijdig werd ook het International Congress of Telegraphy and Telephony gehouden. Ingenieurs en wetenschappers van over de hele wereld kwamen er van gedachten wisselen over ontwerp en inrichting van communicatiesystemen. Een van de sprekers was genoemde Ralph Hartley, een ingenieur bij Bell Labs.

In zijn bijdrage Transmission of Information valt hij meteen met de deur in huis: “What I hope to accomplish (…) is to set up a quantitative measure whereby the capacities of various systems to transmit information may be compared.”

Hij constateert dat ‘informatie’ een nogal rekbaar (‘elastic’) begrip is. Het is nodig om eerst een meer specifieke betekenis vast te stellen. Waar gaat het om bij communicatie? Allereerst moet er een verzameling tastbare symbolen, zoals woorden, letters, punten, strepen en zo zijn, met een algemene geldigheid waarover de communicerende partijen het eens zijn.
Uit die verzameling kiest de zender een symbool, of een serie symbolen, en brengt die onder de aandacht van de ontvanger. Met elk symbool dat de zender kiest perkt hij zijn mogelijkheden voor het vervolg in. Neem de zin “Appels zijn rood”. Door de keuze van het symbool ‘appel’ worden andersoortige objecten uitgesloten, zelfs andere fruitsoorten. Het verbindende woord ‘zijn’ is bedoeld om de aandacht van de ontvanger te richten, en met ‘rood’ worden alle andere kleuren geëlimineerd. Het gevolg van dit keuzeproces is dat de informatie steeds preciezer wordt.

Afhankelijk van de context en de beschikbaarheid van symbolen, is de keuze ervan door de zender een subjectieve aangelegenheid, en een psychologische factor bovendien: de zender moet anticiperen op wat de ontvanger van de gekozen symbolenreeks kan maken. Ook bij de ontvanger is een psychologische factor van belang. Omdat hij weet dat de zender ook andere symbolen had kunnen kiezen om de boodschap over te brengen moet de ontvanger in feite interpreteren wat de zender heeft bedoeld te communiceren, zeker als de technische uitvoering van de communicatie gebrekkig is door ruis of storing.

Hartley is een ingenieur, hij wil iets zinnigs kunnen zeggen over de capaciteit van systemen om informatie over te brengen – capaciteit die alleen afhankelijk zou moeten zijn van fysieke omstandigheden en niet van psychologische, die de capaciteit oneigenlijk begrenzen. Hij is op zoek naar een maat voor informatie.

In het artikel staat het volgende voorbeeld. Stel, een operator kan bij het opmaken van een te verzenden boodschap kiezen uit 3 symbolen. Als een boodschap lengte 2 zou hebben, d.i. uit 2 symbolen zou bestaan, dan is op voorhand het aantal mogelijke boodschappen gelijk aan 3^2 = 9. Bij n selecties, voor een boodschap van lengte n zouden er 3^n mogelijke sequenties zijn.

In het algemene geval van s verschillende symbolen waaruit n keer gekozen moet worden om een boodschap te vormen, is het aantal mogelijke sequenties gelijk aan s^n. Deze uitdrukking zegt iets, in kwantitieve zin, over de hoeveelheid informatie, maar is in de werkelijkheid – zegt de ingenieur – niet erg praktisch. Een telegraaf-systeem verwerkt immers achter elkaar net zoveel woorden als gewenst, zolang het systeem maar aan staat – er zijn geen extra faciliteiten nodig. De lengte van de boodschap, of serie boodschappen, doet er wel toe, en die is afhankelijk van het aantal selecties uit de verzameling symbolen dat nodig is, niet van de omvang van de verzameling symbolen.

Hartley stelt daarom voor om de voor informatie gezochte maat, H, te zoeken in de evenredigheid met het aantal gekozen symbolen, in formule vorm (1): H=Kn waarbij K een constante is die afhangt van het aantal s van beschikbare symbolen bij selectie.

Stel, we willen dezelfde informatie overbrengen met twee verschillende verzamelingen van resp. aantal s_1 en s_2 symbolen. Met de ene verzameling hebben we dan n_1 selecties nodig, met de andere n_2.

Omdat het om gelijke informatie gaat, geldt de gelijkheid (2): s_1^{n_1}=s_2^{n_2}

Als H geschikt wil zijn als maat voor informatie moet dus gelden (3): H=K_1n_1=K_2n_2

Met een rekenregel voor logaritmes kunnen we (2) omvormen tot (4): n_1log(s_1)=n_2log(s_2)

Via wat rekenkundig goochelwerk (gelijke factoren in teller en noemer bij een breuk vallen tegen elkaar weg, je kunt ze dus ook straffeloos toevoegen aan elke uitdrukking) vormen we (3) om tot (5):

    \[\frac{K_1n_1*log(s_1)}{log(s_1)}=\frac{K_2n_2*log(s_2)}{log(s_2)}\]

De uitdrukkingen boven de streep bevatten links en rechts gelijke factoren, zo blijkt uit de gelijkheid (4). Die mag je dus tegen elkaar wegstrepen. Dan blijft over (6):

    \[\frac{K_1}{log(s_1)}=\frac{K_2}{log(s_2)}\]

Omdat (6) geldt voor alle combinaties van s symbolen en n selecties hebben we zo een bruikbare van s afhankelijke constante K gevonden, namelijk: log(s).

De oorspronkelijke gedachte (1) is dus geworden: H=nlog(s)=log(s^n)

Ruim 20 jaar later wordt het idee opgepikt door Claude Shannon, als startpunt voor de ontwikkeling van een theorie die tot op de dag van vandaag zijn impact heeft: informatietheorie. In een volgend bericht wil ik preciezer uitzoeken om welke elementen het gaat en welke van belang zijn in het kader van kunstmatige intelligentie en Active Inference.

Geef een reactie

Je e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *