Over héél grote getallen

Mijn spraakgebruik is ouderwets geworden. Om back-ups van mijn computer te maken denk ik een externe harde schijf te hebben van 1TB. De woorden schijf en TB zijn echter ingehaald door de tijd.

De schijf is solid state, er draait niets meer.

TB, terabyte, komt uit een decimaal systeem om omvang aan te duiden: kilo, mega, giga, tera, peta, … (steeds 1.000 keer meer). Ook dat systeem is achterhaald geraakt naarmate de getallen steeds groter werden. De kleinste eenheid is de bit, een 0 of een 1, een byte bestaat uit 8 bits. Omvang neemt per stap met een factor 2 toe — en bereken je in machten van 2, niet in machten van 10. Omdat 210=1.024 dicht bij 1.000 ligt heeft men van oudsher daarvoor wel de decimale uitdrukking gebruikt: kilo=1.000. En zo door.

Bij relatief kleine getallen is het verschil in omvang van de binaire en decimale weergave te verwaarlozen. In het veen kijkt men niet op een turfje, om een minstens zo achterhaalde uitdrukking te gebruiken. Bij mijn harde schijf van 1TB is het verschil al aanzienlijk: binair uitgedrukt gaat het om 1,099,511,627,776 bytes, en niet om 1,000,000,000,000 bytes. Dat verschil is niet meer weg te poetsen.

De huidige standaard (die ook al weer ruim 20 jaar bestaat) gebruikt andere aanduidingen, steeds met een i achter de eerste hoofdletter, dus KiB ipv KB, MiB, GiB, TiB, enzovoort, en in de benaming steeds ingevoegd ‘bi’ (voor binair). Het is even wennen dat mijn terabyte nu tebibyte is gaan heten… In de tabel zie je de verschillende waarden en benamingen.

In de wereld van AI en taalmodellen gaat het over zeer grote dataverzamelingen en aantallen parameters die er aan gekoppeld worden. Daar zul je doorgaans de nieuwe maten uit het linkerrijtje tegenkomen.

Geef een reactie

Het e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *