Een catalogus voor de kroonjuwelen
Christine Staiger Research engineer
Zonder data geen analyse, resultaat of publicatie. In een tijd waarin de hoeveelheid aan en de kruisverbanden tussen data blijven groeien door ontwikkelingen in de wetenschap en technologie, is datamanagement cruciaal. Bij WUR is er daarom geïnvesteerd in iRODS, het luxepaardje onder de datamanagementsystemen.
Dat datamanagement knap lastig kan zijn heeft Christine Staiger aan den lijve ondervonden. De research engineer die wetenschappers adviseert over datamanagement van grote onderzoeksprogramma’s op de IT-afdeling van WUR, deed bij het Nederlands Kanker Instituut onderzoek naar de voorspelling van genezing bij kankerpatiënten. “Ik had een analyse gemaakt met behulp van machine learning om kankerpatiënten van elkaar te onderscheiden. Het resultaat was een fraaie curve. Daarna vroeg mijn promotor om één parameter te veranderen. Ik wéét dat ik de parameter heb veranderd en ik had ook een nieuw resultaat. En toch presenteerde ik mijn promotor de oorspronkelijke analyse. Ik was de weg kwijt in mijn eigen onderzoeksgegevens.”
Foto's: Anne Reinke
De afgelopen twee jaar heeft Staiger samen met collega Floris Jan Zwaan en zijn team gewerkt aan de implementatie van iRODS. Dankzij iRODS (Integrated Rule-Oriented Data System) hoeven onderzoekers niet meer te verdwalen in hun data. WUR betrekt - net als andere universiteiten in Nederland - iRODS via SURF (een samenwerkingsverband van universiteiten). Maar WUR heeft de kennis in huis om iRODS verder te ontwikkelen én onderzoekers te ondersteunen en adviseren. Dat betekent: korte lijntjes met experts, zodat onderzoekers goed begeleid worden in het omgaan met onderzoeksdata en metadata op dit platform.
Betekenisvolle post
Wat houdt dat iRODS precies in? Staiger vergelijkt het met de post. De data zitten in de tekst van de brieven en de metadata worden gevormd door de hoeveelheid brieven, de dikte van de brieven en wie naar wie brieven stuurt, de netwerken die dat oplevert – nationaal en internationaal. De tekst van de brieven krijgt pas echt betekenis als je bijvoorbeeld weet voor wie de brief bestemd is. iRODS koppelt automatisch data aan metadata.
‘Een onderzoeker heeft een infrastructuur nodig die kan meebewegen tijdens het onderzoek’
Eenmaal goed ingevoerd hoeft de onderzoeker niet meer na te denken over welke data waar staat en houdt hij of zij overzicht en regie over de onderzoeksgegevens. Dat is een aanlokkelijk vooruitzicht voor de wetenschapper die bezig wil zijn met onderzoek, experimenten en kennis vergaren, en niet met IT. “Ons doel is de wetenschappers ontzorgen”, beaamt Staiger. Om iRODS perfect te laten werken, is het belangrijk om de data in een keer goed te categoriseren. Staiger adviseert de onderzoeker hierbij. “Ik ga met een onderzoeker om tafel en vraag hem of haar uit over de onderzoeksdata. Dat schrijf ik allemaal op.” Ze trekt een parallel met het digitale archief van vakantiefoto’s. “Wat wil je met die foto’s? Zijn ze allemaal even belangrijk? Wil je de foto’s onderverdelen naar de personen die erop staan? Wil je ze rangschikken naar datum van opname of naar de plekken die je hebt bezocht? Wil je ze allemaal publiceren of maar enkele specifieke foto’s?”
Kroonjuwelen worden waardeloos
Het probleem waar onderzoekers mee geconfronteerd worden volgens Staiger, is dat ze na verloop van tijd hun data niet meer begrijpen. Data zijn de kroonjuwelen van het onderzoek, maar niet als je niet meer weet wat ze betekenen. “Als je je gegevens niet geannoteerd hebt met bijvoorbeeld welke statistische tests je gebruikt hebt die hebben geleid tot een bepaalde uitkomst, dan zijn data eigenlijk waardeloos. iRODS biedt wetenschappers een platform waarin alle data en metadata FAIR kunnen worden opgeslagen. Deze letters staan voor Findable, Accessible, Interoperable en Reusable.
iRODS landt op een storage omgeving van in totaal 10 petabytes (10 miljoen gigabytes)
Bij FB-IT werken 9 mensen die zich 24/7 bezighouden met servers en storage
WUR heeft 250 fysieke servers en host bijna 1.000 virtuele servers
WUR heeft een high performance computer (Anunna genaamd) voor berekeningen aan wetenschappelijke data
Anunna heeft een rekencapaciteit die vergelijkbaar is met 500 computers
WUR bewaart back-ups fysiek gescheiden van de datacenters. De back-ups staan op tapes van 18 terabytes (18.000 gigabytes)
Staiger vraagt onderzoekers hoeveel data ze zullen produceren gedurende het onderzoek en waar en hoe ze de gegevens willen opslaan. “Naarmate het onderzoek vordert, groeit de kennis en dat heeft uiteindelijk ook gevolgen voor de data die verzameld en geïnterpreteerd moeten worden. Een onderzoeker heeft daarom een datamanagement-infrastructuur nodig die kan meebewegen met ontwikkelingen tijdens het onderzoek. Die infrastructuur ben ik nu aan het bouwen.”
Ben je op zoek naar de beste IT-oplossing voor je onderzoeksdata? Vind de beste opslaglocatie met de Data Storage Finder. Wil je liever iemand spreken over het opslaan en beheren van je onderzoeksdata? Stuur dan een mail naar data@wur.nl.