Voor bijna alle Nederlandse websites dreigt de vergetelheid. De KB nationale bibliotheek zou ze graag archiveren, maar stuit daarbij op de wet. ‘Als we er in de toekomst over willen schrijven, moeten we het nu vastleggen.’
is techredacteur van de Volkskrant.
‘Zal ik je mijn favoriete webpagina laten zien?’, vraagt Sophie Ham, conservator digitale collecties bij de KB nationale bibliotheek. Ze zit voor een computer, aan het einde van een leeszaal, in een kleine onderzoeksruimte. Op het scherm haalt Ham een oude versie van thuisarts.nl tevoorschijn, de door huisartsen opgezette website met medische voorlichting, die jaarlijks ruim 72 miljoen bezoekers trekt.
De versie uit 2013 is, vergeleken met nu, nogal saai: veel tekst, weinig beeld. Waarom dit dan toch de favoriete website is van de conservator? Ze navigeert naar de uitlegpagina over ADHD uit 2013. Een handjevol bulletpoints somt, wat kort door de bocht, symptomen van ADHD op, zoals ‘niet denken, maar doen’, naast een plaatje van een jongetje. ‘Jongens hebben 2 tot 3 keer zo vaak ADHD dan meisjes’, staat er.
Met wat clicks draait Ham de tijd vooruit, naar het internet van nu, en er blijkt heel wat te zijn veranderd. ‘Meisjes zijn niet zo druk als jongens. Hierdoor merk je ADHD vaak minder goed.’ Ham: ‘Dat is echt een ander inzicht, en over tien jaar zal het weer anders zijn. Als je wilt weten hoe deze kennis ontwikkelt, moet je alle versies van de website bewaren.’
Daarom heeft de KB op dit moment zo’n 25 duizend .nl-websites gearchiveerd, vertelt Martijn Kleppe, de afzwaaiende plaatsvervangende algemeen directeur van de KB. Het klinkt als een grote collectie, maar Kleppe draagt het getal aan als waarschuwing.
Het .nl-domein bestaat uit ruim zes miljoen websites. Dat betekent dat de KB, de erfgoedinstelling met de taak het nationale culturele erfgoed veilig te stellen, van 99,6 procent van het Nederlandse internet geen back-up heeft. Nagenoeg alle .nl-websites staan daarom op het randje van de vergetelheid: ‘Een gemiddelde webpagina bestaat negentig dagen voordat ze verandert of verdwijnt’, zegt Kleppe.
Er zijn al gapende gaten ontstaan in het Nederlandse internetgeheugen, dat bijna veertig jaar overspant. Willen toekomstige wetenschappers onze tijd onderzoeken, dan moeten zij het bijvoorbeeld doen zonder Hyves als primaire bron, het eerste Nederlandse sociale medium, dat in 2013 werd opgeheven.
Dat is het voorbeeld dat hoogleraar digital humanities Susan Aasman (Rijksuniversiteit Groningen) steevast aandraagt om de urgentie van het gebrek aan webarchivering te illustreren. Op Hyves kwam de Nederlandse jeugd begin deze eeuw voor het eerst online samen, vertelt ze, en politici deden er hun eerste poging om burgers te bereiken op het digitale stadsplein.
Maar de teksten, foto’s en gifjes van dansende bananen die deze ontwikkeling concreet maken, zijn grotendeels verloren gegaan. ‘Een groot deel van ons politieke, sociale en culturele leven vindt online plaats. Als we er in de toekomst over willen schrijven, moeten we het nu vastleggen’, zegt Aasman.
Dat gebeurt nu minimaal. Volgens Kleppe komt dat door hoe de wet is ingericht. ‘Of eigenlijk, hoe de wet niet is ingericht’, zegt hij. Het relevante juridische kader voor archiefwerk is ouder dan het internet zelf. ‘Het houdt geen rekening met digitale publicaties. Daardoor moeten wij, als we een website willen opslaan, eerst achterhalen wie de eigenaar is en die om toestemming vragen. Dat is verschrikkelijk arbeidsintensief.’
Dit leidt tot de opmerkelijke situatie dat het leeuwendeel van de geschiedenis van het Nederlandse internet niet te vinden is bij de KB, maar bij een Amerikaanse non-profitorganisatie, het Internet Archive. Dat archief werd in 1996 opgericht door ondernemer Brewster Kahle en huist ruim duizend miljard websites, naast miljoenen boeken, films, games en geluidsopnamen. Wat over is van Hyves, staat in deze digitale bibliotheek, maar niet bij de KB.
Internetters kunnen handmatig websites aan het Internet Archive toevoegen, maar veruit de meeste pagina’s verzamelt het Amerikaanse archief met ‘webcrawlers’. Dit zijn computerprogramma’s die zelfstandig het internet afstruinen om webpagina’s te archiveren. Door deze automatisering is er een kolossale tijdlijn ontstaan van het internet, openbaar toegankelijk via de ‘Wayback Machine’.
Toen Peter R. de Vries werd gedood, transformeerde zijn persoonlijke website tot een digitaal monument, voordat de KB de tijd had gehad om het op te slaan. ‘Wij waren toen heel blij met het Internet Archive’, vertelt Ham: sinds het jaar 2000 heeft de Wayback Machine 892 versies van De Vries’ website opgeslagen.
Toch is het naïef om te denken dat het Internet Archive de Nederlandse internetgeschiedenis veiligstelt. ‘Het Internet Archive heeft niet de taak om het Nederlandse internet te bewaren’, zegt Ham. Bovendien is het een non-profit die overleeft dankzij donaties, zonder overheidssteun. Ham: ‘Wij moeten ons werk doen alsof het Internet Archive niet bestaat.’
De druk op het Internet Archive neemt bovendien alleen maar toe: het verloor of schikte in de afgelopen jaren grote auteursrechtelijke zaken tegen uitgeverijen en Universal Music Group. Het archief betaalde hierbij onbekende geldbedragen en verwijderde vijfhonderdduizend boeken uit het digitale archief.
Uit angst zelf auteursrechten te schenden – voor alle tekst, video en audio waaruit webpagina’s bestaan – doet de KB haar archiefwerk voorlopig nog met zorgvuldig, traag handwerk. Maar niet van harte: conservatoren opperen al jaren dat de overheid regelt dat een vertrouwde erfgoedinstelling zoals de KB het Nederlandse internet, bijvoorbeeld het .nl-domein, mag archiveren.
Daarvoor bestaat al een juridisch haakje, vertelt Stef van Gompel, hoogleraar intellectueel eigendom aan de Vrije Universiteit Amsterdam: het ‘wettelijk depot’. Op grond daarvan kunnen uitgevers worden verplicht om publicaties, zoals boeken en kranten, in te leveren bij een nationale instantie zoals de KB. ‘Door een wettelijk depot te introduceren voor Nederlandse websites, kan bijvoorbeeld de KB deze archiveren, zonder alle versnipperde auteursrechten op het internet te schenden.’
Het idee is dat de KB als poortwachter optreedt, door te bepalen wie het archief kan raadplegen en onder welke voorwaarden. Deze vorm van afscherming lost ook privacykwesties op, zoals de vraag of gênante foto’s wel bewaard zouden moeten blijven.
In Frankrijk, Duitsland en het Verenigd Koninkrijk maken archieven door dit soort regelingen al jaren back-ups van het nationale internet, met behulp van webcrawlers. Nederland loopt pijnlijk achter: ‘Ik schaam me soms kapot, op internationale congressen, als ik over die 25 duizend webpagina’s in ons archief vertel’, zegt Ham.
De vorige minister van Onderwijs, Cultuur en Wetenschap, Gouke Moes (BBB), stelde in oktober 2025 in een Kamerbrief dat nieuwe jurisprudentie nodig is voor het behoud van het digitale erfgoed. Hij begon daarom een wetstraject om de mogelijkheden te verkennen om conservatoren in staat te stellen aan ‘webharvesting’ te doen – data verzamelen met webcrawlers. In 2029 moet dit traject zijn afgerond.
Een woordvoerder van de huidige minister van OCW, Rianne Letschert (D66), laat weten dat dit beleid nog steeds staat. Op de vraag wat haar eigen standpunt is over het onderwerp, kan ze niet reageren: ze wordt nog bijgepraat over het dossier.
De voorgestelde tijdlijn stelt de gesproken experts verre van tevreden: ‘Denk aan die negentig dagen voordat een site verandert of verdwijnt’, zegt Kleppe. ‘Elke maand dat we wachten, gaat erfgoed verloren.’ Conservator Ham deelt die angst: ‘Ik maak me zorgen dat het internet tegen 2029 al helemaal op slot zit’, zegt ze. De afgelopen twee jaar heeft Ham een verdubbeling gezien van het aantal websites dat de KB niet kán archiveren.
Dat komt mede door generatieve AI. Bedrijven achter chatbots zoals ChatGPT trainen hun software door bakken met data – teksten, video’s, audio – van het internet te plukken. Daarvoor gebruiken ze webcrawlers, net als de KB en het Internet Archive. Steeds meer websites, waaronder Wikipedia en nieuwsmedia zoals The New York Times, blokkeren de toegang van webcrawlers als verzet tegen vermeende auteursrechtenschendingen van AI-bedrijven. Daarbij worden, vaak onbedoeld, ook de crawlers van bibliotheken geblokkeerd.
‘Zelfs als we toestemming hebben gekregen om een webpagina te archiveren’, zegt Ham. Eigenaars van websites laten hun cyberveiligheid, waaronder de verdediging tegen AI-crawlers, regelen door derde partijen zoals Cloudflare. Een recent voorbeeld hiervan was de website van GroenLinks, vertelt Ham: ‘Hoewel GroenLinks ons had gevraagd hun webpagina’s te archiveren, kwamen we niet door de blokkade heen die Cloudflare had opgetuigd.’
Het contact met dat bedrijf werd voor de KB nóg een horde in de archivering van de website van de partij die op het punt staat te verdwijnen door de definitieve fusie met de PvdA. Om GroenLinks toch in het nationaal erfgoed op te nemen – van de GroenLinks-website bestaat geen fysiek equivalent – moest de partij een complete kopie maken van hun website, die de KB vervolgens kon archiveren.
Het is voor conservatoren een frustrerende situatie. Kleppe: ‘Ik vind het oliedom. De oplossingen liggen al op tafel. Ik zou willen zeggen: minister, geef gas, zorg ervoor dat ons nationale erfgoed bewaard blijft. Wat dat betreft faalt de overheid nu echt.’
Luister hieronder naar onze podcast de Volkskrant Elke Dag. Kijk voor al onze podcasts op volkskrant.nl/podcasts.
Geselecteerd door de redactie
Source: Volkskrant