Skip to main content
  • 20 november 2011

De journalist als alpinist: datajournalistiek

Martin Broek

Afgelopen zaterdag organiseerde het Legebeke Legaat een forum over wikileaks en de 'Argos Machinery'. Met die machine wordt een indexprogramma  bedoeld dat effectief zoeken mogelijk maakt in drie bergen wikileaks documenten: de militaire logboeken uit Afghanistan en Irak en de Amerikaanse  diplomatieke ambtsberichten (in totaal zevenhonderdduizend bestanden). Dat  is een berg waar je het liefst omheen gaat. 

Gerard Legebeke is de veel te vroeg gestorven eindredacteur van het  VPRO/VARA radioprogramma Argos. Het legaat is opgericht om zijn motto  'de waarheid en niets dan de waarheid' kracht bij te zetten en te bevorderen  dat onderzoeksjournalistiek een kerntaak van de publieke omroep is en blijft.  Voor het Legebeke Legaat is wikileaks en zo'n zoekmachine een uitgelezen  onderwerp, zeker omdat Argos zelf een hoofdrol speelde. 

De redactie van Argos kwam er al snel achter dat het doorspitten van alle informatie met gewone zoekmethoden gekkenwerk was. Ik was die gek die  voor hen door de Afghanistan logboeken ging en weken ploeterde om 2.500 documenten te selecteren waarin sprake was van operaties en activiteiten in  Uruzgan en/of Nederlandse activiteiten in Afghanistan (die resultaten staan  op mijn site). 

Tijdens dat zoeken werd duidelijk: 

1. dat bestand na bestand openklikken om te lezen bewerkelijk was en niet  efficiënt. Grote digitale bestanden lees ik gewoonlijk met de Ctrl-f functie en ik  denk dat veel mensen dat doen. Dat is mogelijk als gevonden informatie in  één bestand staat. 

2. dat ook een krant een dergelijk en even uitgebreid onderzoek had gedaan.  Argos kreeg die gegevens en ik vergeleek mijn vondsten met die van hen. Zij  hadden pagina's gevonden die ik miste en andersom. Er moest een preciezere  methode mogelijk zijn. 

3. je door toenemende specifieke kennis allengs meer zoektermen krijgt, maar  dat steeds opnieuw door die bulk heen gaan te tijdsintensief was. 

Een snellere zoekmethode en betere verwerking van zoektochten, leek ons (o.  a. Huub Jaspers van Argos en Sam Streefkerk van ONJO (het samenwerkingsverband van de programma's voor onderzoeksjournalistiek van de publieke omroep)) een ICT-oplossing. Geen van allen waren we in staat met meer dan  rudimentaire kennis van digitaal indexeren en dataminen aan een dergelijke  oplossing te werken.

Op dat moment blijkt dat de goede naam en Nijmeegse connectie van Argos  goud waard zijn. Jaspers kwam hoogleraar computerbeveiliging Bart Jacobs  tegen en die - hoewel hij dat normaal gesproken niet doet - vroeg tijdens een  college op de Radbout Universiteit of studenten er mee aan de slag wilden  gaan. Vijf man sterk gaven zij zich op. Elf maanden later leverde dit uiteindelijk de Argos Machinery op. 

Met trots werd het apparaat gedemonstreerd. Een verzameling zoekwoorden rond Kunduz (met trefwoorden van militaire eenheden, namen van personen,  operaties, plaatsen, dorpjes en gehuchten) leverde ruim negentienduizend  resultaten op. Door die vondst te beperken tot bestanden met Nederland erin  bleef daarvan een klein deel over. Die vondsten werden geprojecteerd op een  kaart en het grootste deel bleek in de provincie Kunduz te liggen en een  kleiner deel in de hoofdstad Kabul. Wat mij weken kostte kan nu in een dag.  En veel preciezer. 

De machine komt niet online. Argos wil niet meewerken aan het verspreiden  van persoonlijke gegevens (die mensen in gevaar kan brengen). Maar ze wil  ook niet witten in de berichten. Soms kan een naam en adres je als journalist  op een spoor zetten. Dat betekent niet dat je die gegevens publiceert, maar je  gebruikt ze wel voor je onderzoek en ze moeten dan ook niet verloren gaan.  De oplossing is dat journalisten de zoekmachine alleen kunnen gebruiken bij  de VPRO zelf. 

Als je geen journalist bent of niet naar het Mediapark wil gaan dan zijn er ook  andere methoden die snel resultaten opleveren. Zoeken in de cables is minder  moeilijk dan het lijkt. Je kan google gebruiken, bijvoorbeeld met de volgende  zoekterm: "thales netherlands'' site:wikileaks.org/cable. Zo vond ik een telex  over de controle op de levering van optische technologie aan Algerije met  onderdelen van Thales. Ik schreef er eerder dit jaar over, maar de cable voegt  extra kennis toe aan wat ik al wist. Vrij precies is de Amerikaanse vergunningsafhandeling uit 2009 te volgen. Zoektermen kan je aanpassen aan eigen  wensen op elk gebied, verander "thales netherlands" in shell nigeria en je  krijgt weer hele andere berichten. En als je de zevenhonderdduizend bestanden naar je computer download ben je verzekerd van toegang en kan je met  meer of minder specialistische software zoeken. 

Er bestaat ook http://cablesearch.org, opgezet door Henk van Ess van de Vereniging voor Onderzoeks Journalisten (VVOJ). Dat biedt weer net andere  mogelijkheden en is in het begin gemakkelijker in het gebruik. Of kijk rond op de wikileaks site zelf, maar dat is lastiger. Maar het haalt het allemaal niet bij  het Argos product. De kleine redactie was door zijn gedrevenheid in staat een  professionele zoekmachine te laten ontwikkelen (zonder de vijf studenten was  het onbetaalbaar en onhaalbaar geweest), investeerde in de toekomst en  leverde een forse bijdrage aan de Nederlandse onderzoeksjournalistiek.  Hopelijk kunnen ze die voorsprong niet al te gemakkelijk behouden en gaan  ook andere media investeren. Het hoeft voor de dataminers niet bij wikileaks  te blijven; er zijn nog vele andere bergen.