-
20 november 2011
De journalist als alpinist: datajournalistiek
Afgelopen zaterdag organiseerde het Legebeke Legaat een forum over wikileaks en de 'Argos Machinery'. Met die machine wordt een indexprogramma bedoeld dat effectief zoeken mogelijk maakt in drie bergen wikileaks documenten: de militaire logboeken uit Afghanistan en Irak en de Amerikaanse diplomatieke ambtsberichten (in totaal zevenhonderdduizend bestanden). Dat is een berg waar je het liefst omheen gaat.
Gerard Legebeke is de veel te vroeg gestorven eindredacteur van het VPRO/VARA radioprogramma Argos. Het legaat is opgericht om zijn motto 'de waarheid en niets dan de waarheid' kracht bij te zetten en te bevorderen dat onderzoeksjournalistiek een kerntaak van de publieke omroep is en blijft. Voor het Legebeke Legaat is wikileaks en zo'n zoekmachine een uitgelezen onderwerp, zeker omdat Argos zelf een hoofdrol speelde.
De redactie van Argos kwam er al snel achter dat het doorspitten van alle informatie met gewone zoekmethoden gekkenwerk was. Ik was die gek die voor hen door de Afghanistan logboeken ging en weken ploeterde om 2.500 documenten te selecteren waarin sprake was van operaties en activiteiten in Uruzgan en/of Nederlandse activiteiten in Afghanistan (die resultaten staan op mijn site).
Tijdens dat zoeken werd duidelijk:
1. dat bestand na bestand openklikken om te lezen bewerkelijk was en niet efficiënt. Grote digitale bestanden lees ik gewoonlijk met de Ctrl-f functie en ik denk dat veel mensen dat doen. Dat is mogelijk als gevonden informatie in één bestand staat.
2. dat ook een krant een dergelijk en even uitgebreid onderzoek had gedaan. Argos kreeg die gegevens en ik vergeleek mijn vondsten met die van hen. Zij hadden pagina's gevonden die ik miste en andersom. Er moest een preciezere methode mogelijk zijn.
3. je door toenemende specifieke kennis allengs meer zoektermen krijgt, maar dat steeds opnieuw door die bulk heen gaan te tijdsintensief was.
Een snellere zoekmethode en betere verwerking van zoektochten, leek ons (o. a. Huub Jaspers van Argos en Sam Streefkerk van ONJO (het samenwerkingsverband van de programma's voor onderzoeksjournalistiek van de publieke omroep)) een ICT-oplossing. Geen van allen waren we in staat met meer dan rudimentaire kennis van digitaal indexeren en dataminen aan een dergelijke oplossing te werken.
Op dat moment blijkt dat de goede naam en Nijmeegse connectie van Argos goud waard zijn. Jaspers kwam hoogleraar computerbeveiliging Bart Jacobs tegen en die - hoewel hij dat normaal gesproken niet doet - vroeg tijdens een college op de Radbout Universiteit of studenten er mee aan de slag wilden gaan. Vijf man sterk gaven zij zich op. Elf maanden later leverde dit uiteindelijk de Argos Machinery op.
Met trots werd het apparaat gedemonstreerd. Een verzameling zoekwoorden rond Kunduz (met trefwoorden van militaire eenheden, namen van personen, operaties, plaatsen, dorpjes en gehuchten) leverde ruim negentienduizend resultaten op. Door die vondst te beperken tot bestanden met Nederland erin bleef daarvan een klein deel over. Die vondsten werden geprojecteerd op een kaart en het grootste deel bleek in de provincie Kunduz te liggen en een kleiner deel in de hoofdstad Kabul. Wat mij weken kostte kan nu in een dag. En veel preciezer.
De machine komt niet online. Argos wil niet meewerken aan het verspreiden van persoonlijke gegevens (die mensen in gevaar kan brengen). Maar ze wil ook niet witten in de berichten. Soms kan een naam en adres je als journalist op een spoor zetten. Dat betekent niet dat je die gegevens publiceert, maar je gebruikt ze wel voor je onderzoek en ze moeten dan ook niet verloren gaan. De oplossing is dat journalisten de zoekmachine alleen kunnen gebruiken bij de VPRO zelf.
Als je geen journalist bent of niet naar het Mediapark wil gaan dan zijn er ook andere methoden die snel resultaten opleveren. Zoeken in de cables is minder moeilijk dan het lijkt. Je kan google gebruiken, bijvoorbeeld met de volgende zoekterm: "thales netherlands'' site:wikileaks.org/cable. Zo vond ik een telex over de controle op de levering van optische technologie aan Algerije met onderdelen van Thales. Ik schreef er eerder dit jaar over, maar de cable voegt extra kennis toe aan wat ik al wist. Vrij precies is de Amerikaanse vergunningsafhandeling uit 2009 te volgen. Zoektermen kan je aanpassen aan eigen wensen op elk gebied, verander "thales netherlands" in shell nigeria en je krijgt weer hele andere berichten. En als je de zevenhonderdduizend bestanden naar je computer download ben je verzekerd van toegang en kan je met meer of minder specialistische software zoeken.
Er bestaat ook http://cablesearch.org, opgezet door Henk van Ess van de Vereniging voor Onderzoeks Journalisten (VVOJ). Dat biedt weer net andere mogelijkheden en is in het begin gemakkelijker in het gebruik. Of kijk rond op de wikileaks site zelf, maar dat is lastiger. Maar het haalt het allemaal niet bij het Argos product. De kleine redactie was door zijn gedrevenheid in staat een professionele zoekmachine te laten ontwikkelen (zonder de vijf studenten was het onbetaalbaar en onhaalbaar geweest), investeerde in de toekomst en leverde een forse bijdrage aan de Nederlandse onderzoeksjournalistiek. Hopelijk kunnen ze die voorsprong niet al te gemakkelijk behouden en gaan ook andere media investeren. Het hoeft voor de dataminers niet bij wikileaks te blijven; er zijn nog vele andere bergen.