Hoe  maak je data uit onderzoek uitwisselbaar op wereldschaal? Wat spreek je  af om de gegevens uit (veld)onderzoek, oftewel experimentele data, zo  op te schrijven dat iedereen in de wereld er gebruik van kan maken? Dat  is precies waar onderzoeker plantenveredeling Richard Finkers al  jarenlang aan werkt samen met een grote groep internationale  onderzoekers.
Data driven science
Richard  Finkers is van origine plantenveredelaar, maar richt zich tegenwoordig  vooral op bioinformatica en big data. Hij houdt zich nu bezig met  ‘datagedreven science’ zoals hij zelf omschrijft. Finkers:  “Plantveredelaars willen planten verbeteren door veredeling. Uit die  veredelingsexperimenten komen steeds meer data. Die info willen we  allemaal meenemen in het veredelingsproces. Maar voor een individu is  dat bijna niet meer te overzien en is het verwerken van die vele data  niet meer te doen. Om die reden automatiseren we zo veel mogelijk. Als  je gegevens uit een computer wilt halen of aan anderen wil voorleggen,  dan zijn eenduidige termen nodig om gegevens te kunnen uitwisselen.  Daarom moet je onderling afspraken maken ‘waar hebben we het over?’ Dat  is een eerste stap richting uitwisselbaarheid.”
MIAPPE maakt data uitwisselbaar
Op  dit gebied is nu een doorbraak bereikt met de publicatie van een  datastandaard genaamd MIAPPE. Deze afkorting staat voor Minimum  Information About a Plant Phenotyping Experiment. MIAPPE is eigenlijk een set afspraken over de beschrijving en documentatie van experimenten op het gebied van plantfenotypering (fenotype is de uiterlijke verschijningsvorm van de plant, red). 
Finkers legt uit: “Deze datastandaard beschrijft wat we  opschrijven om een experiment te begrijpen; de data en metadata van de  data. Bijvoorbeeld in een aardappelveldproef noteren we het gewicht van  knollen in kg. Of als het in andere stelsel gemeten wordt, zet je dat  erbij, zodat de waarneming om te rekenen is. Je moet het zien als een  soort taal die we afspreken voor dit soort experimenten. We hebben in  MIAPPE afgesproken hoe je een observatie het beste vastlegt, zodat  iedereen weet waar je het over hebt. Alleen op die manier kunnen die  gegevens door iedereen worden gebruikt.”
Juist het vertalen van  eenheden zorgt voor onduidelijkheid en misverstanden, en staat vaak  grootschalig en efficiënt gebruik van data in de weg. Vele organisaties,  vooral vanuit de EU, zien de voordelen van deze afspraken en hebben  samengewerkt aan MIAPPE. De eerste versie is gepubliceerd in 2015 en in  januari 2020 is een aangepast versie verschenen. Het werk aan MIAPPE  werd gefinancierd vanuit de infrastructuur Elixir. Finkers vertelt dat er nog steeds collega’s werken aan verbeteringen in deze standaard, bijvoorbeeld vanuit het EU phenotyping network.
Niet alleen voor plantenveredelaars
Volgens Willem Jan Knibbe, directeur Wageningen Data Competence Center (WDCC)  is het gebruik van een datastandaard als MIAPPE een belangrijke  doorbraak, en niet alleen interessant voor plantenveredelaars. Knibbe:  “In Wageningen onderzoeken we een zeer complex domein vol onderlinge  verbanden. Data bieden ons houvast om dit domein steeds beter te  doorgronden. Elk deel van dit domein kent zijn eigenaardigheden, ook op  het gebied van het verzamelen van data. Als het ons lukt om de  onderlinge toegankelijkheid van die data te verbeteren dan opent dat  fantastische mogelijkheden voor computer gebaseerd onderzoek. MIAPPE  laat zien hoe het met wereldwijd actieve grote spelers mogelijk is toe  te werken naar uitwisselbaarheid. Het is dus een prachtig voorbeeld hoe  we in Wageningen op weg zijn naar Open Science.”
Breeding API (BrAPI)
Zijn  die datasets gestandaardiseerd en uitwisselbaar gemaakt, bijvoorbeeld  met behulp van MIAPPE, dan volgt een volgende stap in het proces. Hoe  maak je data uitwisselbaar met computersoftware? Hiervoor wordt vaak  gebruik gemaakt van een Application Programming Interface (API). Een internationale groep onderzoekers heeft voor de plantenveredeling afspraken ontwikkeld om data uit te wisselen; de zogenaamde Breeding API oftewel BrAPI. BrAPI  is een technische beschrijving hoe onderzoekers veredeling onderling  data (over fenotype en genotype) geautomatiseerd uitwisselen tussen  computers. Alle betrokken veredelaars, computerwetenschappers,  biometrici, etc. hebben twee keer per jaar tijdens hackatons deze  uitwisselingstaal geoptimaliseerd. In 2019 is BrAPI wereldkundig gemaakt  in een publicatie
Finkers  vat de ideale verwerking van data uit een veldexperiment als volgt  samen: “De data uit dat experiment leggen we vast in documenten, zoals  we dat in MIAPPE hebben afgesproken. Voor de uitwisseling maken we dan  gebruik van BrAPI. Door deze internationale afspraken heb je niet alleen  eenheid op wereldniveau, en kun data uitwisselen, maar je kunt ook  denken aan praktische toepassingen. Als je op deze manier werkt, kun je  met je smartphone (bijvoorbeeld via de app Field Book) in Afrika het veld ingaan en via BrAPI data invoeren in een database. Zo zijn er meerdere apps ontwikkeld.”
Wat brengt uitwisselbaarheid?
Volgens  Finkers heeft het uitwisselen van data wereldwijd toegevoegde waarde  voor iedereen. “Info die mondiaal wordt verzameld, maakt het mogelijk om  in de veredeling tot betere keuzes te komen. Beschikbaarheid van data  scheelt bovendien in het aantal extra experimenten dat nodig is. Ook is  het voor onderzoekers tegenwoordig vaak een verplichting richting hun  financiers. Bij al het onderzoek dat bijvoorbeeld door het NWO wordt  gefinancierd, wordt er een datamanagementplan gevraagd, zodat de  gegevens uit het onderzoek hergebruikt kunnen worden. Als je werkt met  publiek/privaat geld moeten je gegevens wel uitwisselbaar zijn.  Transparantie en uitwisseling wordt steeds meer een must.”
Hij constateert dat er, net er als bij alle nieuwe ontwikkelingen early adopters  zijn, die de voordelen van de extra inspanning zien; een middengroep,  die het nut nog niet direct ziet; en een groep die een barrière voelt.  Die laatste groep is bang dat ze alleen gegevens weggeven en er niets  voor terugkrijgen, aldus Finkers. Voor hen heeft hij een aantal  voorbeelden (zie artikel met cases) waar het goed kan werken. Ook adviseert hij hen de BrAPI website te bezoeken om te lezen hoe uitwisselen van gegevens veredelaars en onderzoeker kan helpen.
Data hergebruiken
Je  kunt je afvragen of hergebruik van data zinnig is. Maar een  veredelingsbedrijf doet eigenlijk niet anders. Zij bouwen continu door  op materiaal en kennis dat ze al hebben uit het verleden. In het  onderzoek is die continuïteit minder vanzelfsprekend legt Finkers uit.  Onderzoek wordt veelal ad hoc gefinancierd door overheid en partners.  Vaak in projecten die na een paar jaar worden afgesloten. “Wat is er  mooier dan dat je die gegevens in een ander onderzoek kunt hergebruiken,  en niet steeds weer het wiel opnieuw moet uitvinden. Juist met steeds  betere methoden, zoals in machine learning, opent dit allerlei  perspectieven op veelbelovend onderzoek.
Tot nu toe was dat  alleen niet zo eenvoudig. Als je oude data gaat gebruiken, ben je  driekwart van je tijd kwijt om te doorgronden wat er is gedaan. Als je  daarachter bent, moet je de data nog in een vorm gieten om mee te  werken. Afspraken hierover kunnen een enorme tijdwinst opleveren en als  onderzoeker kan je dan vrij eenvoudig doorborduren op proeven die al  eens gedaan zijn. Persoonlijk zie ik die winst vooral voor  opbrengstproeven in relatie tot stabiliteit: welke plant levert meer  opbrengst maar is ook over langere periode betrouwbaar daarin? Dat soort  experimenten zijn voor ons slecht te doen. Die vragen om veel  waarnemingen, veel grondsoorten, veel jaren en veel verschillende  omstandigheden. Je hebt een grote hoeveelheid data nodig om inzicht te  krijgen welke cultivars onder alle omstandigheden stabiel zijn.
Zo  lijkt het mij als veredelaar reuze interessant om data te gebruiken van  bijvoorbeeld zetmeelverwerker AVEBE. Dit bedrijf heeft legio  teeltgegevens van aandeelhouders over lange periodes, en die zijn  gekoppeld aan zetmeelpercentages en zetmeelkwaliteit per aardappelras.”
Biometris en precisielandbouw
Zo  geeft Finkers een ander voorbeeld van WUR-collega Maikel Verouden,  onderzoeker bij de Business Unit Biometris. Verouden maakt voor de  verwerking van geno- en fenotypische data gebruik van R, software voor  statistische berekeningen en grafische weergave. Samen met collega’s bij  Biometris heeft Verouden, o.a. voor het Integrated Breeding Platform  (ook een partner in BrAPI), een statistische genetische pijplijn  ontwikkeld voor genomische selectie en voorspelling van het fenotype op  basis van het genotype van nieuw materiaal.
De geno- en  fenotypische data die nodig zijn voor de pijplijn, kunnen komen uit  databases, die compatibel zijn met de BrAPI standaard. Hiervoor heeft  Verouden samen met Reinhard Simon, werkzaam bij Plant Breeding, het  software package BrAPI R, ontwikkeld, die de koppeling verzorgd tussen R  en BrAPI compatibele databases. Hiermee kan hij heel eenvoudig data uit  databases halen om verder te analyseren. Dit is volgens Finkers een  mooi voorbeeld van universele (en eenvoudige) uitwisseling via BrAPI.
Ook  ziet Finkers mogelijkheden in het gebruik van data uit de  precisielandbouw, een onderwerp waar WUR-collega Corne Kempenaar aan  werkt. Bij die vorm van landbouw leggen boeren heel veel data uit hun  bedrijfsproces vast, soms tot op detailniveau. Zo wordt bijvoorbeeld de  opbrengst van een gewas al gemeten tijdens de oogst op het veld.
Finkers: “Die precisielandbouw genereert veel datastromen  die ik in de toekomst graag zou willen gebruiken. Met die data zou je  virtuele veredelingsexperimenten op kunnen zetten.”
Lange adem
Finkers  rekent erop dat meer en meer mensen het nut gaan inzien van het  efficiënt delen van data. Ondertussen bouwen Finkers en zijn  collega-onderzoekers in EU-projecten in samenwerking met Wageningen Data  Competence Center (WDCC) door aan workflows waarin ze systemen als  MIAPPE en BrAPI gebruiken en optimaliseren, allemaal op weg naar betere  gewassen.
Finkers: “Voordat onderzoekers en bedrijven efficiënt en  transparant wereldwijd data delen, zijn we vijf of misschien wel 10  jaar verder, een zaak van lange adem dus, maar ik ben blij dat WUR een  steentje kan bijdragen aan deze ontwikkeling.”