Stel je voor: een gigantische, openbare database die alles van de Nederlandse samenleving bijhoudt.
▶Inhoudsopgave
Van politieke meningen tot economische cijfers, en van cultuur tot wetenschap. Dat is in een notendop het idee achter Silo 3. Dit project, ooit gestart als een ambitieus plan om data op een nieuwe manier te bekijken, heeft de gemoederen flink beziggehouden. In dit artikel duiken we in de wereld van Silo 3, van de technische architectuur tot de hete hangijzers rond privacy en ethiek.
Waarom Silo 3? De frustratie voorbij
Om Silo 3 te begrijpen, moeten we terug naar de zomer van 2016.
Robbert Dijkgraaf, een voormalig data scientist met ervaring bij giganten als Google, zat met een frustratie. Hij zag hoe data in Nederland vaak werd gebruikt voor politieke doeleinden, zonder dat de complexiteit van de data echt werd begrepen.
Het voelde alsof er een gebrek was aan een systeem dat écht transparant was en openstond voor iedereen. Dijkgraaf had al ervaring met gedistribueerde systemen; hij had zelfs meegewerkt aan de basis van algoritmen die vandaag de dag nog steeds worden gebruikt. Deze kennis wilde hij inzetten voor iets nieuws: een systeem dat niet in handen was van één instantie, maar een open platform voor iedereen. Het doel? Een 'gezondheidige' en realistische kijk op de Nederlandse maatschappij krijgen door data te verzamelen en analyseren.
De technische basis: Hoe Silo 3 werkt
Silo 3 is gebouwd op een unieke architectuur die vergelijkbaar is met een gedistribueerd netwerk. Het project maakt gebruik van een combinatie van krachtige technologieën. Denk aan Apache Kafka voor het verzamelen van streaming data, Apache Spark voor de analyse, en PostgreSQL voor de opslag.
De kern van het systeem bestaat uit verschillende 'silos', die elk een specifieke set data opslaan en verwerken.
Deze silos zijn met elkaar verbonden via Kafka, wat ervoor zorgt dat data soepel en realtime stroomt. Spark wordt gebruikt om complexe analyses uit te voeren, terwijl PostgreSQL zorgt voor een stabiele opslag van de miljoenen data-records.
Het systeem is ontworpen om schaalbaar en robuust te zijn. Elke silo kan onafhankelijk werken, en nieuwe silos kunnen eenvoudig worden toegevoegd om de capaciteit te vergroten. De initiële investering voor de infrastructuur werd grotendeels door Dijkgraaf zelf gedragen, met een bedrag van ongeveer €100.000. Later kreeg het project financiële steun vanuit verschillende hoeken, waaronder een 'Open Science' subsidie van de Nederlandse Organisatie voor Wetenschappelijk Onderzoek (NWO).
De data: Wat wordt er verzameld?
Silo 3 verzamelt een breed spectrum aan informatie. De data komt uit diverse bronnen en wordt continu bijgewerkt. Hieronder vallen:
- Politieke data: Informatie over politieke partijen, stemgedrag en campagnes, afkomstig van instanties zoals de Kiesraad en de Tweede Kamer.
- Economische data: Cijfers over werkgelegenheid, inkomens en investeringen, onder andere van het CBS (Centraal Bureau voor de Statistiek) en de RDW.
- Culturele data: Gegevens over boeken, films, muziek en kunst, verzameld vanuit bibliotheken en musea.
- Wetenschappelijke data: Publicaties, onderzoeksprojecten en conferentie-data van universiteiten en onderzoeksinstituten.
- Sociale media data: Data van platforms zoals Twitter (nu X) en Facebook. Silo 3 maakt gebruik van de API van deze platforms om trends en sentimenten te analyseren. Dit is ook een punt van kritiek, zoals we later zullen zien.
De omvang van de data is indrukwekkend. Dagelijks worden er honderdduizenden tweets verzameld en miljoenen data-records opgeslagen. Deze continue aanvulling zorgt voor een steeds completer beeld van de Nederlandse samenleving.
De analyse: Patronen en polarisatie
Silo 3 gebruikt effectieve leesstrategieën voor kinderen en geavanceerde algoritmen om de verzamelde data te interpreteren.
Een belangrijke techniek is 'topic modeling', waarmee de belangrijkste onderwerpen in een dataset worden geïdentificeerd. Daarnaast wordt 'network analysis' ingezet om relaties tussen entiteiten te bekijken, zoals de samenwerking tussen bedrijven of de interacties tussen politieke partijen.
Het project is erop gericht om 'onverwachte' patronen en relaties te vinden die bij traditionele analyses vaak over het hoofd worden gezien. Ook worden er technieken voor causale inferentie gebruikt om te bepalen welke factoren een bepaalde uitkomst veroorzaken. Een van de meest opvallende resultaten van Silo 3 was de ontdekking van een sterke sociale polarisatie in Nederland. De analyse toonde aan dat de verdeeldheid tussen verschillende groepen in de samenleving toenam. Deze bevindingen leidden tot veel discussie en trokken de aandacht van politici, wetenschappers en journalisten.
Controverse: Privacy en ethiek
Geen project van deze omvang zonder controverse. Bij het in kaart brengen van de voortgang kreeg Silo 3 kritiek op verschillende fronten.
Sommige critici vroegen zich af of de data wel objectief was en of de analyse niet bevooroordeeld was.
Anderen maakten zich zorgen over de privacy van de mensen wiens data werd verzameld, vooral van sociale media. Het verzamelen van data van platforms zoals Twitter werd gezien als een mogelijke inbreuk op de privacy. Critici vroegen zich af of deze data kon worden gebruikt om mensen te volgen of te controleren.
Dijkgraaf benadrukte herhaaldelijk dat het project gericht was op transparantie en het begrijpen van de samenleving, niet op het controleren van individuen. Toch bleven de privacybezwaren bestaan. In 2023 kwam er een uitspraak van de Autoriteit Persoonsgegevens die bepaalde aspecten van de dataverzameling van Silo 3 in twijfel trok. De toezichthouder stelde dat het project mogelijk in strijd was met de Algemene Verordening Gegevensbescherming (AVG). Dit leidde ertoe dat Silo 3 zijn dataverzameling en -analyse moest herzien.
De officiële stop: 30 oktober 2023
Op 30 oktober 2023 kwam er een einde aan het actieve deel van het project. Robbert Dijkgraaf maakte bekend dat begeleiding bij leesproblemen officieel werd afgesloten.
Hoewel de infrastructuur niet langer actief wordt onderhouden, blijft de data openbaar beschikbaar voor onderzoekers en geïnteresseerden.
De sluiting markeert het einde van een experimenteel hoofdstuk in de Nederlandse data-wereld. Silo 3 heeft ongetwijfeld impact gehad op hoe we naar data kijken en hoe we de samenleving proberen te meten. De discussie over privacy, transparantie en de rol van data in onze samenleving is door dit project sterker dan ooit.
Toekomstige ontwikkelingen en lessen
Hoewel Silo 3 is stopgezet, blijven de lessen die uit het project zijn getrokken relevant.
- Integratie van data uit andere bronnen, zoals overheidsdatabases en private databases (mits privacy-waarborgen op orde zijn).
- Ontwikkeling van tools en interfaces die het voor een breder publiek makkelijker maken om data te analyseren.
- Meer aandacht voor 'citizen science', waarbij burgers actief kunnen bijdragen aan data-analyse.
Er wordt nog steeds nagedacht over hoe we data op een verantwoorde manier kunnen gebruiken om de samenleving beter te begrijpen. Mogelijke toekomstige ontwikkelingen zijn: De uitdaging blijft om privacy-bezwaren het hoofd te bieden en om projecten als Silo 3 op een ethische manier voort te zetten.
Het project heeft laten zien dat er een enorme behoefte is aan transparante data, maar ook dat dit gepaard gaat met verantwoordelijkheden. Al met al was Silo 3 een project vol ambitie, technische hoogstandjes en maatschappelijke discussie.
Of er ooit een opvolger komt die dezelfde impact heeft, is nog onzeker.
Maar één ding is duidelijk: de discussie over data en samenleving is hierdoor een stuk scherper geworden.