Vlees in een database
Foto's: Anne Reinke
Biologisch vlees is duurder dan niet-biologisch vlees. Maar smaakt het ook beter? Met die vraag gaat WUR-onderzoeker Hans Spoolder aan de slag. Omdat het een Europees onderzoeksproject is en er dus in verschillende landen data wordt verzameld, komt er een datawarehouse waar alle gegevens bij elkaar gebracht worden. “Het is essentieel dat iedereen hetzelfde meet en die gegevens op dezelfde manier inlevert.”
“Mensen die biologische producten eten, zeggen dat deze producten lekkerder zijn”, vertelt Hans Spoolder, werkzaam bij Wageningen Livestock Research. “Maar is dat ook zo? En zo ja, hoe komt dat dan?” Voor het vierjarig Europese onderzoeksproject mEATquality gaat Spoolder kijken of varkens- en kippenvlees uit de extensieve veehouderij beter smaakt dan vlees uit de intensieve veehouderij. De onderzoekers zullen boerderijen in Denemarken, Duitsland, Polen, Spanje en Italië gaan bezoeken en letten daarbij op dierenwelzijn, het ras van het dier en het soort voeding. Gedurende het hele project wordt het vlees van de verschillende boerderijen aan smaakpanels voorgezet. Ook worden in het lab de eigenschappen van het vlees bepaald. Spoolder: “We doen een uitgebreide chemische en fysische analyse van het vlees. Dit willen we koppelen aan de herkomst van het vlees. We zoeken bijvoorbeeld naar isotopen waaraan je kunt zien of een varken Spaans of Pools gras gegeten heeft.”
Veel verschillende soorten data
Al met al worden er dus veel verschillende soorten data uit diverse Europese landen verzameld. Te denken valt aan scores uit vragenlijsten over dierenwelzijn die onderzoekers bij boerderijen afnemen, gegevens uit de smaakpanels en data uit de laboratoriumonderzoeken. Al die gegevens moeten ook aan elkaar gekoppeld kunnen worden: je wilt immers kunnen controleren of het vlees van de Duitse biologische varkensboerderij inderdaad anders smaakt en een andere samenstelling heeft dan bijvoorbeeld vlees uit de gangbare Deense varkenshouderij.
Wouter Hoenderdaal Database-developer
‘We bouwen alles zo dat het foolproof is; immers, niet elke onderzoeker is even tech-savvy’
En dan moeten alle gegevens ook nog eens voldoen aan de Algemene verordening gegevensbescherming (AVG), wat betekent dat persoonlijke data van boeren niet zichtbaar mogen zijn. Spoolder: “We proberen de anonimiteit zo goed mogelijk te waarborgen. Elke boer krijgt een nummer en landsaanduiding. Maar alleen de onderzoekers uit het betreffende land weten welke boer achter die code schuilgaat.”
Datawarehouse
WUR is coördinator van dit project en bouwt ook het datawarehouse waarin alle gegevens bijeengebracht zullen worden. Hoe pak je zoiets aan? Daar houdt Wouter Hoenderdaal, database-developer bij Wageningen Food Safety Research, zich mee bezig. Hoenderdaal: “Het project is nog in de opstartfase, maar het proces dat voorafgaat aan de dataverzameling, is minstens zo belangrijk. Het is essentieel dat iedereen hetzelfde meet en die gegevens op dezelfde manier inlevert. We sturen alle onderzoekers dan ook een specifiek format toe waarin ze hun gegevens kunnen invullen.” Bij het mEATquality-project is het dus belangrijk dat de data aan elkaar gekoppeld kunnen worden. Hoenderdaal: “Een deel van het dier gaat naar het lab, een ander deel van hetzelfde dier gaat naar de smaakpanels. We moeten dus een waterdicht codesysteem opzetten waarmee je van begin tot eind kunt traceren waar de vleessample vandaan komt: van welk dier, van welke boerderij, uit welke regio en uit welk land.”
Twee delen
Het datawarehouse bestaat uit twee delen en een soort voorportaal. Dat laatste is een bestandssysteem waarin de onderzoekers zelf hun ruwe data kunnen uploaden. Ze zullen alleen toegangsrechten krijgen voor hun eigen map. Hoenderdaal: “Alle bestanden worden ook met een wachtwoord beveiligd. Gebruiker X kan dus alleen in zijn eigen map en daar dan ook nog eens alleen zijn eigen bestanden lezen.”
Het werkelijke datawarehouse bestaat uit een ontwikkel- en een productiedatabase. Hoenderdaal: “In de ontwikkeldatabase gaan we bouwen en testen, en wanneer we vinden dat daar alles klopt, gaat alle data naar de productiedatabase. Onderzoekers hebben geen toegang tot de ontwikkel- en productiedatabase, wel tot het bestandssysteem.” Dit om te voorkomen dat de database vervuild raakt met onbruikbare data, of nog erger: deels wordt gewist door een onoplettende onderzoeker. “Die database maken we in Postgres, een open source relationele database, waarin de data op een gestructureerde manier worden opgeslagen.”
Het overbrengen van data van het bestandssysteem naar de ontwikkeldatabase is geautomatiseerd. “We schrijven scripts in Python, zodat de bestanden van de onderzoekers vanzelf op de juiste plek in de database terechtkomen. Het idee is dat de scripts niet kunnen voorkomen dat er een fout bestand wordt geüpload naar het bestandssysteem, maar dat ze die wel herkennen waardoor ze niet in de database komen. Zo voorkomen we dat er verkeerde data in de database wordt geüpload. We bouwen alles zo dat het foolproof is; niet elke onderzoeker is immers even tech-savvy.”
‘We moeten een waterdicht codesysteem opzetten waarmee je van begin tot eind kunt traceren waar de vleessample vandaan komt’
De productiedatabase moet doorzoekbaar zijn voor onderzoekers, zodat ze hun eigen gegevens kunnen vergelijken met die van anderen, maar ze hebben geen toegang tot die database. Hoe lossen Hoenderdaal en zijn collega’s dat op? “Wij verwachten dat ze vooral standaard datasets willen inzien, waarin bepaalde data worden gecombineerd. Die kunnen we dan in een beveiligde map voor ze klaarzetten. Als een onderzoeker een heel specifieke vraag heeft, zullen wij een aangepaste dataset voor hem samenstellen.”
Valkuilen
Wat zijn de valkuilen bij dergelijke internationale datauitwisseling? Hoenderdaal: “Taal kan voor problemen zorgen. De voertaal is Engels, waardoor er in de vertaling van de moedertaal naar het Engels fouten terecht kunnen komen. De onderzoekers hebben nu zelf een check ingebouwd door een Engelse tekst eerst naar het Duits te vertalen en dan weer terug. Als de tweede Engelse tekst dezelfde uitkomst heeft als de eerste, weten ze dat het goed zit.”
Een tweede valkuil heeft met het systeem te maken: een relationele database als Postgres is heel geschikt voor het opslaan van gestructureerde data, maar minder voor ongestructureerde data als pdf’s of stukken tekst. Hoenderdaal: “Zo kun je over een bepaalde vleessample gestructureerde data ontvangen, bijvoorbeeld uit het lab, maar wellicht ook scans. Niet alles is immers in gestructureerde data te vangen. Voor het koppelen van die ongestructureerde data aan de gestructureerde data moeten we nog iets bedenken. In dit project valt voor ons dus ook veel te leren.”
Vleesdatabase
Als het aan Hans Spoolder ligt, staat het mEATquality-project aan de basis van een grote, Europese database over de herkomst van vlees. Spoolder: “Zo’n Europese database bestaat al voor wijn. Het bedrijf Oritain is bezig met het opzetten van een database voor rund- en lamsvlees. Zij zijn geïnteresseerd in onze data over kippen en varkens.” De traceerbaarheid van vlees is belangrijk bij het voorkomen van vleesfraude; denk aan het paardenvleesschandaal, maar ook aan het labelen van vlees als biologisch, terwijl het eigenlijk uit de intensieve veehouderij komt.
Spoolder: “Het vaststellen van vleesfraude is een zijstap in ons project. We hebben geen budget om dat verder uit te bouwen, maar we kunnen op termijn wel bijdragen aan een internationale vleesdatabase.”