Het gebruik van ensemblevoorspellingen door meteorologische instanties wereldwijd vormt de ruggengraat van veel hedendaagse weers- en klimaatmodellen. Elk ensemblelid, afkomstig van instellingen zoals het National Centre for Medium-Range Weather Forecasting (NCMRWF), het European Centre for Medium-Range Weather Forecasting (ECMWF), de Japan Meteorological Agency (JMA), het United Kingdom Meteorological Office (UKMO), en het Global Forecast System van het National Centre for Environmental Prediction (NCEP GFS), biedt unieke voordelen door de variatie in ruimtelijke resolutie en methodologische aanpak. De resoluties van deze modellen variëren van fijnmazige grids van 0,25° tot grovere schaalniveaus van 1°, wat directe implicaties heeft voor de granulariteit en nauwkeurigheid van de neerslagvoorspellingen.

De IMD-MME-gegevenssets bieden een waardevolle publieke bron, waarbij districtsgerichte voorspellingen voor het moessonseizoen beschikbaar zijn met dagelijkse updates en een voorspellingshorizon van maximaal vijf dagen. Deze gegevens zijn vooral belangrijk voor landen waar de landbouwproductie direct afhankelijk is van korte- en middellangetermijnvoorspellingen, zoals in Zuid-Azië.

Parallel aan deze modelgebaseerde benaderingen vormen satellietgebaseerde neerschattingen een essentieel instrument voor hydrologische analyse. Ze maken het mogelijk om neerslagpatronen met een hoge temporele en ruimtelijke resolutie te observeren en te analyseren. De verscheidenheid aan beschikbare satellietdatasets—zoals GPCP, TRMM, GSMaP, PERSIANN, CHIRPS en GPM—biedt onderzoekers de mogelijkheid om nauwkeurig af te stemmen op hun specifieke onderzoeksdoelen. Deze datasets verschillen aanzienlijk in dekking, resolutie en methodologie, van grootschalige maandelijkse schattingen met een ruimtelijke resolutie van 2,5° tot sub-uurwaarden op 0,04° schaal.

De algoritmen die gebruikt worden voor het afleiden van neerslagschattingen uit satellietgegevens, zijn geavanceerd en maken vaak gebruik van machine learning, zoals kunstmatige neurale netwerken in het geval van PERSIANN. Dit stelt onderzoekers in staat om ook bij afwezigheid van een fysiek grondstation betrouwbare informatie te verkrijgen over neerslagintensiteit, spreiding en seizoensgebonden fluctuaties.

In de context van klimaatverandering zijn projectiedata van cruciaal belang. Ze leveren inzichten over toekomstige veranderingen in de hydrologische cyclus en maken het mogelijk om risico’s te beoordelen rond overstromingen, droogte en waterbeschikbaarheid. Klimaatprojecties, afgeleid van Global Climate Models (GCMs) en Regional Climate Models (RCMs), zijn beschikbaar via internationale netwerken zoals het Earth System Grid Federation (ESGF) en CORDEX. GCMs bieden mondiale dekking, maar missen vaak de ruimtelijke scherpte die nodig is voor lokale besluitvorming. RCMs vullen deze leemte door regionale verfijning van GCM-uitvoer mogelijk te maken, wat met name van belang is voor nationale waterbeheerstrategieën en klimaatadaptatieplanning.

De datasets, opgeslagen in formaten zoals NetCDF en Grib, zijn niet enkel ruwe numerieke output; ze vormen de basis voor geavanceerde analyses van toekomstige trends in temperatuur, neerslag, verdamping en afvoer. Deze informatie wordt steeds belangrijker naarmate klimaatverandering de extremen versterkt en de betrouwbaarheid van historische gemiddelden onder druk zet. Behalve dynamische downscaling bestaan er ook statistisch downscaled projecties, zoals die aangeboden door NASA Earth Exchange (NEX), die nauwkeurige, dagelijkse data leveren op fijnmazig niveau.

Naast technologische vooruitgang is het belangrijk om de beperkingen van deze systemen te onderkennen. De betrouwbaarheid van zowel satellietschattingen als klimaatprojecties is afhankelijk van de kwaliteit van de inputgegevens, de algoritmen die worden gebruikt, en de context waarin deze gegevens worden toegepast. Elke dataset is een compromis tussen resolutie, dekking, actualiteit en rekenkracht. Daarom vereist effectief gebruik van deze bronnen een diepgaande kennis van zowel de technische specificaties als de meteorologische en hydrologische implicaties.

Belangrijk is dat gebruikers van deze gegevens beseffen dat geen enkele bron op zichzelf volledig de werkelijkheid kan representeren. Het combineren van meerdere datasets—modelgebaseerd, satellietgedreven en klimatologisch—biedt de grootste kans op robuuste, bruikbare inzichten. Juist in deze integratie ligt de sleutel tot toekomstbestendig waterbeheer en risicobeoordeling onder een veranderend klimaat.

Hoe GIS-componenten en datamodellen de ruimtelijke analyse versterken

Geografische informatiesystemen (GIS) zijn ontworpen om te ondersteunen bij het creëren, beheren, analyseren en presenteren van ruimtelijke data. Ze bieden een uitgebreid platform dat hardware en softwaretools combineert om complexe geografische gegevens te verwerken. De belangrijkste componenten van GIS omvatten hardware, software, mensen, methoden en data. Deze componenten werken gezamenlijk om geografische informatie effectief te beheren en toe te passen in diverse domeinen, van stadsplanning tot milieubeheer.

GIS-componenten

De hardware van een GIS omvat de computerinfrastructuur die nodig is om GIS-software te draaien. Dit kan een centrale server zijn, een cloudgebaseerd systeem of een persoonlijke computer. Naast de centrale hardware worden ook randapparaten zoals printers, plotters en scanners gebruikt om gegevens in te voeren en weer te geven. Software omvat de applicaties die de verwerking van GIS-gegevens mogelijk maken. Dit bevat onder andere een grafische gebruikersinterface (GUI) voor de interactie met de gebruiker, een relationele databasebeheersysteem (RDBMS) voor de opslag van data, en verschillende analysetools. Enkele veelgebruikte GIS-softwarepakketten zijn ArcView, ArcGIS, QGIS en MapInfo Pro.

Mensen zijn essentieel voor de werking van een GIS, zowel de experts die de hardware en software ontwikkelen en onderhouden als de gebruikers die de systemen gebruiken om gegevens te produceren. Methoden verwijzen naar de specifieke technieken en tools die een organisatie kiest om bepaalde doelen te bereiken. De keuze van hardware en software wordt hierbij vaak bepaald door de specifieke behoeften van de organisatie.

Data zijn de belangrijkste componenten van een GIS. Ze vormen de basis voor het analyseren, manipuleren en opslaan van ruimtelijke informatie. GIS-software gebruikt een relationele database om deze gegevens op te slaan en te beheren. Het GIS-structuursysteem maakt gebruik van thematische lagen die elk een bepaald type gegevens vertegenwoordigen, zoals landgebruik, bodemtype of bevolkingsdichtheid. Deze lagen worden op een gestandaardiseerd referentiesysteem opgeslagen, waardoor een efficiënte vergelijking en analyse mogelijk is.

GIS-gegevens: Ruimtelijke en Attribuutdata

In GIS worden twee hoofdcategorieën van gegevens gebruikt: ruimtelijke en attribuutdata. Ruimtelijke data verwijzen naar geografische kenmerken met een bekende locatie op de aarde, zoals steden, wegen of rivieren. Deze gegevens zijn georeferentieerd, wat betekent dat ze aan een coördinatensysteem zijn gekoppeld. Ruimtelijke data kunnen worden gepresenteerd als punten, lijnen of gebieden. Een voorbeeld van een punt zou de locatie van een stad kunnen zijn, terwijl een lijn een weg of een rivier kan voorstellen, en een gebied bijvoorbeeld de grenzen van een land of regio.

Attribuutdata geven meer gedetailleerde informatie over de geografische kenmerken. Dit kan variëren van de naam en bevolking van een stad tot het type bodem of het gebruik van land in een specifiek gebied. Attribuutdata worden doorgaans opgeslagen in tabellen die gekoppeld zijn aan de ruimtelijke gegevens, waardoor een gedetailleerde en gestructureerde weergave van de wereld mogelijk wordt.

Ruimtelijke datamodellen

Er zijn verschillende benaderingen voor het opslaan van ruimtelijke gegevens in GIS, met de twee belangrijkste modellen als vector- en rastersystemen. Het vector-datamodel stelt geografische kenmerken voor als punten, lijnen of polygone. Een punt kan bijvoorbeeld de locatie van een monument zijn, terwijl een lijn een rivier of een weg kan representeren. Polygone worden gebruikt om gebieden zoals meren of steden te vertegenwoordigen. Dit model is zeer geschikt voor het vastleggen van gegevens met duidelijke grenzen of definities.

Het raster-datamodel daarentegen gebruikt een rooster van cellen of pixels om gegevens op te slaan. Elke cel heeft een bepaalde resolutie, en hoe kleiner de cel, hoe gedetailleerder de informatie die het bevat. Rastermodellen zijn bijvoorbeeld ideaal voor het representeren van satellietbeelden of luchtfoto’s, waarbij de continue variatie in gegevens (zoals hoogte of temperatuur) moet worden vastgelegd.

Attribuutdatamodellen

Attribuutgegevens kunnen worden opgeslagen en beheerd met behulp van verschillende datamodellen, zoals het objectgeoriënteerde model, netwerkmodellen, relationele modellen en hiërarchische modellen. In de meeste GIS-software wordt echter het relationele datamodel gebruikt, waarbij gegevens worden georganiseerd in tabellen met rijen en kolommen. De gegevens in deze tabellen worden met elkaar in verband gebracht via referenties, zodat gebruikers verschillende geografische kenmerken kunnen combineren en analyseren.

Gegevensinvoer in GIS

Gegevens die in GIS-systemen worden ingevoerd, komen vaak uit diverse bronnen, zoals satellietbeelden, luchtfoto’s, GPS-gegevens, analoge kaarten en veldmetingen. De ruimtelijke gegevens kunnen handmatig worden gedigitaliseerd, automatisch worden gescand of via GPS-technologie worden verzameld. Deze inputmethoden zijn essentieel voor het verkrijgen van nauwkeurige en actuele geografische informatie.

Ruimtelijke Analyse

Ruimtelijke analyse is een cruciaal onderdeel van GIS, waarbij gegevens worden geanalyseerd om nieuwe kennis te genereren. Het doel van ruimtelijke analyse is om antwoorden te geven op vragen die niet direct beschikbaar zijn uit de oorspronkelijke gegevens. Dit maakt GIS een onmisbaar hulpmiddel voor besluitvorming, bijvoorbeeld bij het plannen van infrastructuur of het beheren van natuurlijke hulpbronnen. GIS biedt verschillende analysefuncties, zoals het uitvoeren van query's, classificaties, generalisaties en het analyseren van nabije omgevingseigenschappen. Met deze tools kunnen gebruikers inzicht krijgen in de relaties tussen verschillende geografische objecten en trends identificeren die anders moeilijk te zien zouden zijn.

Belangrijke overwegingen bij het gebruik van GIS

Naast de technische aspecten van GIS moeten gebruikers ook rekening houden met de context en de kwaliteit van de gegevens. Het succes van een GIS-analyse hangt niet alleen af van de software of de hardware, maar ook van de nauwkeurigheid en relevantie van de gegevens die worden ingevoerd. Het is essentieel om ervoor te zorgen dat de gegevens correct zijn gegeorefereerd, dat de juiste datamodellen worden gebruikt, en dat de juiste analysecriteria worden gehanteerd. Verder kunnen de specifieke eisen en doelstellingen van een project invloed hebben op de keuze van de methoden en tools die binnen het GIS worden toegepast. Het begrijpen van de onderliggende theoretische principes van GIS kan ook bijdragen aan betere en efficiëntere besluitvorming in ruimtelijke vraagstukken.

Hoe Evalueren We Machine Learning Tools?

Machine learning (ML) heeft een sterke relatie met kunstmatige intelligentie (AI) sinds het ontstaan van beide technologieën. Oorspronkelijk verdween ML door de datagroeiende aard van probabilistische en iteratieve methoden, en maakte plaats voor kennisgebaseerde AI. Echter, met de toename van rekenkracht, de beschikbaarheid van gedigitaliseerde informatie en de komst van het internet, heeft ML een heropleving doorgemaakt en is het inmiddels zelfstandig, los van AI, gevestigd. Vandaag de dag worden ML-tools gebruikt in een breed scala aan toepassingen, waaronder de hydrologie. De belangrijke vraag die daarbij rijst is: 'Hoe evalueren we een ML-tool?' Om deze vraag te beantwoorden, worden we geconfronteerd met het dilemma van bias-variantie. Dit dilemma zal verder besproken worden in het volgende gedeelte.

Bias-Variantie Dilemma

Het bias-variantie compromis is een kenmerk van een model waarin het verhogen van de bias in de geschatte parameters de variantie van die parameters, berekend over verschillende monsters, kan minimaliseren. Een essentieel kenmerk van ML-methoden is dat de geschatte parametervariantie door verschillende monsters kan worden geminimaliseerd door de bias in de geschatte parameters te verhogen. Deze eigenschap staat bekend als het bias-variantie compromis. In dit gedeelte van het hoofdstuk bespreken we de eigenschap van de niet-parametrische k-dichtstbijzijnde buur (kNN) regressie bij het benaderen van een onbekende functie. Het aantal dichtstbijzijnde buren, k, in de kenmerkenruimte 'X', wordt gemiddeld om de voorspelling te verkrijgen. Dit is de enige parameter voor kNN. Door constant k te verlagen, vermindert de Mean Squared Error (MSE) op de trainingsset, omdat het model robuuster wordt. Dit proces leidt uiteindelijk tot een perfecte fit voor de trainingsdataset. Echter, een perfecte match op de trainingsset is niet gewenst. Dit komt doordat het model op de trainingsset een hoge variantie zou vertonen, wat resulteert in een slechte prestatie op de testset. Daarom is de MSE van de trainingsset geen geldig indicator voor de prestaties van het model.

Volgens Hastie et al. (2008) is de MSE van de testdataset de som van de bias (door een zwakke modelweerstand), de variantie (door overfitting), en de fundamentele fout. Hier kan het afstemmen van parameters door middel van cross-validatie helpen. Dit houdt in dat interne test- en validatiesets systematisch worden gescheiden van de trainingsdataset. Er rijst echter een probleem: 'Wat gebeurt er als we de cross-validatiemethode toepassen op een hydrologische dataset?' Het antwoord is dat het kan mislukken. Dit komt door de aanzienlijke geografische en temporele correlaties binnen hydrologische datasets, evenals hun niet-stationariteit (Roberts et al. 2017). Er is namelijk een correlatie in de data die gebruikt wordt voor cross-validatie en training. Het uiteindelijke resultaat van de MSE lijkt daardoor sterk op de "MSE van de trainingsset" en de generalisatiefout wordt onderschat. Het model past zich te veel aan de beschikbare data aan. Daarom is het van cruciaal belang om de gegevens intelligent te verdelen in trainings- en testdatasets, vooral bij toepassingen in de hydrologie. Bij het overwegen van blokgewijze vouwen in ruimte en tijd kan het correlatieprobleem voor real-world toepassingen worden geminimaliseerd. Dit zorgt ervoor dat de informatielekkage tussen de vouwen in cross-validatie wordt verminderd.

Dagelijkse Voorbeelden van Machine Learning Toepassingen

We leven zonder twijfel in een tijdperk van machine learning. De toepassingen ervan zijn talrijk en gevarieerd, en omvatten industriële, zakelijke en wetenschappelijke velden. Voorbeelden zijn automatische tekst- en spraakherkenning, vertaaldiensten, functies in sociale media, productaanbevelingen, geautomatiseerd beheer van werknemerstoegang en fotocategorisatie, tagging en sortering. Deze lijst is verre van volledig. ML wordt dan ook vaak genoemd in vacatures en projectaanvraagkoppen.

Machine Learning Algoritmes

In dit gedeelte bieden we een kort overzicht van een aantal belangrijke ML-benaderingen die worden toegepast in de waterbronnensector. Vanwege de snelle ontwikkelingen op dit gebied is het moeilijk om hier een compleet overzicht te bieden. De besproken technieken variëren van meer bescheiden tot flexibele benaderingen, gebaseerd op het eerder besproken "bias-variantie compromis" en praktische overwegingen. Het is buiten het bestek van dit hoofdstuk om alle algoritmen en softwarepakketten aan te bevelen, gezien de grote verscheidenheid aan implementaties van ML-algoritmen. Toch verwijzen we naar enkele originele software-implementaties en technieken, en stellen we voor dat de lezer specifieke websites raadpleegt voor toepassingen en implementaties van ML-methoden, zoals "Machine Learning and Statistical Learning" (Hothorn 2019) en de open-source software op mloss.org of de CRAN-taskview.

K-Nearest Neighbours (KNN)

Volgens Altman (1992) is KNN een bekende techniek voor classificatie en regressie. Het resultaat van de KNN-regressie is het gewogen gemiddelde van de k-dichtstbijzijnde buurwaarden. De gewichten en afstanden hebben een inverse relatie. Bij het vinden van de k-dichtstbijzijnde buren van een monsterpunt in de kenmerkenruimte, vereist het gebruik van een afstandsmaat de toepassing van de Minkowski-afstand, de meest flexibele optie onder de gebruikelijke keuzes.

Artificiële Neurale Netwerken (ANNs)

ANN's behoren tot de meest bekende leeralgoritmen met toepassingen in de hydrologie. Vanwege ruimtebeperkingen kunnen hier slechts enkele essentiële componenten worden gepresenteerd. De lezer kan voor een uitgebreid overzicht van ANNs terecht in hoofdstuk 5 van Bishop (2006) of hoofdstuk 11 van Hastie et al. (2008). ANNs lijken op het menselijke brein, waarbij neuronen in het brein worden voorgesteld als knooppunten in een netwerk. Elk neuron kan andere neuronen activeren. Een feedforward-netwerk met één verborgen laag en een eindig aantal neuronen kan continue functies benaderen, volgens de universele benaderingsstelling van Cybenko (1989).

Bij het trainen van ANNs moeten een aantal belangrijke punten in acht worden genomen:

  1. Trage leer-snelheid,

  2. Verminderde efficiëntie bij online gegevensupdates,

  3. Gevaar van overparameterisatie bij een klein trainingsset,

  4. Gevaar van overfitting bij langere backpropagation-runs.

Het is een kunst op zich om neurale netwerken goed te trainen (Hastie et al., 2008). Bovendien is er bij de interpretatie van de resultaten van ML een probleem: getrainde neurale netwerken zijn doorgaans niet interpreteerbaar. De gewichten tussen inputneuronen, knooppunten in verborgen lagen en outputneuronen zijn niet te begrijpen door mensen. De structuur van ANNs is dus niet transparant voor de data-analist.

Hoe Heeft de Ontwikkeling van Hydrologische Modellen de Waterbeheerpraktijken Beïnvloed?

Voordat computers de wetenschappelijke wereld in de jaren 60 binnentraden, werden componentmodellen voor waterkwantiteit en -kwaliteit ontwikkeld. Deze modellen waren vaak empirisch en conceptueel, en omvatten zowel fysieke als biogeochemische aspecten van de waterkwaliteit. Naarmate het begrip van hydrologische processen toenam, zijn de ontwikkelingen van deze componentmodellen voortdurend doorgegaan. In de daaropvolgende decennia werden er steeds geavanceerdere hydrologische en waterschepmodellen ontwikkeld, die ook meer complexiteit en nauwkeurigheid brachten.

Het Stanford Watershed Model, geïntroduceerd in de jaren 60, was een van de eerste die de volledige hydrologische cyclus simuleerde. Dit model werd al snel gevolgd door een reeks andere modellen die speciaal waren ontworpen om hydrologische processen op stroomgebiedniveau te begrijpen en te voorspellen. Tegelijkertijd, in de vroege jaren 70, werd de wetgeving, zoals de Water Quality Act, aangenomen, en werd de oprichting van de Environmental Protection Agency (EPA) een belangrijke stap voorwaarts in de bescherming van waterkwaliteit. Dit was ook de periode waarin de rekenkracht van computers exponentieel toenam, wat de ontwikkeling van meer gedetailleerde en krachtige modellen mogelijk maakte.

In de jaren 80 werden sediment- en verontreinigingstransport geïntegreerd in deze modellen. Nieuwe wetgeving voor de bestrijding van vervuiling werd aangenomen en minicomputers werden commercieel beschikbaar. Tegelijkertijd werd er gewerkt aan databasebeheersystemen, die de efficiëntie van de hydrologische modellering verder verbeterden. In de jaren 90 kwamen er nieuwe technologieën zoals GIS, grafische software en databasesystemen in gebruik, en werden wetlands, boslandschappen en andere ecologische factoren geïntegreerd in de modellen. De integratie van zowel oppervlaktewater als grondwater en hun interacties volgde in de jaren 2000, wat leidde tot een nog verfijndere benadering van hydrologische modellering.

Vandaag de dag spelen satellietgegevens en gedetailleerde gegevens van afstandswaarnemingen, zoals die verkregen via radar en remote sensing, een cruciale rol bij het verbeteren van de nauwkeurigheid van modellen. Zo werden bijvoorbeeld het SWRRB-model en andere hydrologische modellen geüpdatet door het gebruik van NEXRAD-radarinformatie voor regenvaldata en door het integreren van satellietgegevens over landbedekking. Deze technologische vooruitgangen maken het mogelijk om nieuwe relaties tussen verschillende hydrologische parameters te ontwikkelen, wat essentieel is voor het aanpakken van de uitdagingen die gepaard gaan met klimaatverandering.

Het concept van grootschalige hydrologische modellen werd in de jaren 90 verder versterkt door de integratie van terrestrische, pedologische, lithologische, atmosferische en hydrosferische modellen. Dit werd mogelijk door grootschalige veldexperimenten zoals STORM en GEWEX. Deze experimenten hebben geleid tot de ontwikkeling van diverse regionale en mondiale hydrologische modellen, die nu in staat zijn de impact van klimaatverandering en de frequentie van natuurrampen in grotere mate te simuleren. Naarmate de verschijnselen van wereldwijde opwarming en landgebruikveranderingen steeds duidelijker werden, werd het duidelijk dat dergelijke modellen van groot belang zijn voor het toekomstige waterbeheer.

De uitdagingen van hydrologische modellering zijn echter niet alleen van technische aard. Het integreren van biogeochemische modellen, geochemie, en milieubiologie met hydrologische modellen is essentieel om een holistisch begrip van waterbewegingen en de impact van menselijke activiteiten te krijgen. Daarnaast blijven onzekerheidsanalyse en lange-termijnvoorspellingen cruciaal voor het beheer van watervoorraden, zeker in het licht van klimaatverandering. Het ontwikkelen van risicomodellen voor waterbeheer, zoals bijvoorbeeld voorspelde maximale neerslag en overstromingen, wordt steeds urgenter, vooral in regio’s die vatbaar zijn voor extremen.

Hoewel de technologische vooruitgangen in hydrologische modellering indrukwekkend zijn, blijft het van groot belang om deze modellen toegankelijk en begrijpelijk te maken voor beleidsmakers en het algemene publiek. Het vertrouwen in voorspellingen speelt een cruciale rol, en er is een groeiende behoefte aan interdisciplinaire benaderingen van hydrologie die sociale wetenschappen, economie en besluitvorming integreren. Het beleid moet niet alleen gebaseerd zijn op technische modellen, maar ook op een beter begrip van de menselijke dimensie van waterbeheer.

De zogenaamde 'sociale hydrologie', die opkomt als een belangrijk onderdeel van het vakgebied, kijkt naar de menselijke factoren die invloed hebben op waterbeheer. Dit omvat kwesties zoals waterrecht, waterbeleid, en waterdiplomatie. De integratie van hydrologisch engineering met sociale en managementwetenschappen biedt enorme kansen voor de toekomst, maar het blijft een uitdaging om de interacties tussen menselijke en natuurlijke processen adequaat te modelleren, vooral in het kader van de veranderende klimaat- en milieukondities.

Wat belangrijk is, is dat hydrologische modellen niet alleen over waterkwantiteit en -kwaliteit gaan, maar ook over hoe deze variabelen de samenleving, economie en het milieu beïnvloeden. Modelgebruikers moeten niet alleen rekening houden met de technische aspecten van hydrologische processen, maar ook met de bredere context van menselijke invloed, juridische vraagstukken en milieu-impact. Het model moet niet alleen betrouwbare gegevens leveren, maar ook ruimte bieden voor sociale en politieke keuzes die het waterbeheer in de toekomst zullen sturen.