Referenzen & Beispiele

Ecuador-Datenportal mit Umweltdaten

Für das RESPECT-Projekt haben wir, basierend auf unserer Toolbox, ein Datenportal gebaut, das verschiedene Klima, Wetter, Umwelt und Beobachungs-Daten verfügbar und analysierbar macht. Zusätzlich haben wir das Datenportal mittels Single-Sign-On an eine bestehende Infrastruktur angebunden.

Highlights

Integration von Projektdatensätzen (Modelle, Point-of-Interest, Polygonale Flächen)
Anbindung von externen Daten, z.B. ECMWF, Sentinel-3
Zugriff über Web-GIS oder Jupyter Notebooks
Anbindung an Projektinfrastruktur mit SSO

Methodik

Im RESPECT-Projekt arbeiten Forschende von verschiedenen Universitäten und Instituten zusammen um Umweltveränderungen in den Ökosystemen der Biodiversitäts-Hotspots in Südecuador zu untersuchen. Dazu werden Lösungen sowohl zum Verwalten als auch zum Verarbeiten von Geo-Daten benötigt. Basierend auf der Geo-Engine-Toolbox haben wir ein interaktives Datenportal mit Analysefunktionen aufgesetzt. So können die Forschenden über UI und API auf auf große Datenmengen von Klima- und Wettermodellen zugreifen und diese für ihre Arbeiten nutzen. Um bestehende Nutzer-Accounts und Daten weiterzuverwenden wurde das Datenportal mit unserer Single-Sign-On-Lösung an eine bestehende Projektdatenbank angeknüpft. Im Projekt wird viel mit den genannten Modelldaten, Satellitendaten aber auch lokalen Beobachtungen gearbeitet. Um diese unterschiedlichen Daten zu kombinieren und komplexe Analyse auszuführen, wurden die Daten an die Geo Engine angebunden. Die Forschenden erhalten so Zugriff auf einen Werkzeugkasten von Operatoren. Die Operatoren können zu Workflows kombiniert werden, um Verarbeitungs-Pipelines zu modellieren. Die sonst sehr aufwendige Verarbeitung ist so mit wenig Aufwand einfach umsetzbar. Durch Workflows können auch Verarbeitungsschritte automatisiert werden, sodass diese nicht wiederholt werden müssen. Solche Workflows sind z. B. Satellitendaten von Wolken zu befreien oder Klimamodelldaten an das Gelände im Gebirge anzupassen.

EBV-Analyzer

Der EBV-Analyzer ist ein interaktives Datenportal für essentielle Biodiversitäts-Variablen. Hier haben wir, aus bestehenden Geo-Engine-Bausteinen, ein Datenportal implementiert, das für Biodiversitätsforscher und Stakeholder aus der Politik einfach zu nutzen ist. Im Co-Design-Prozess mit den Experten von GEO BON haben wir Visualisierung, Analysen aber auch die Integration der komplexen EBV-Zeitreihendaten entwickelt.

Highlights

Integration verschiedenster EBV-Datasets
Entwicklung eines Adapters für GEO-BON-spezifisches EBV-Datenformate
Indexierung von Daten & Daten-Zeitreihen

Methodik

GEO BON stellt wichtige Biodiversitätsdaten in einem interaktiven und einfach zu verwendenden Web-Portal bereit. Basierend auf unserer Toolbox haben wir in diesem Projekt das interaktive Portal passend für Biodiversitätsforscher und Stakeholder aus der Politik implementiert. Damit haben wir die Möglichkeit geschaffen, die vorliegenden Zeitreihendaten einfach zu visualisieren und für einzelne Länder analysieren zu können. Dabei war die Herausforderung, heterogene Daten von verschiedenen Forschenden weltweit direkt zu integrieren und global verfügbar zu machen. Wir haben für die Geo Engine einen Adapter für das spezifische EBV-4D-Datenschema von GEO BON mit vielen Variablen und Zeitreihen implementiert. Um einen interaktiven Betrieb zu ermöglichen, werden die Daten darüber hinaus automatisch indiziert und bereitgehalten. Wir haben das Portal nahtlos in die bestehende Datenumgebung integriert.

GdO-Libellenportal im Rahmen von NFDI4Biodiversity

Für die deutsche Libellenforscher-Community haben wir ein interaktives Datenportal entwickelt. Dabei haben wir im Co-Design-Prozess mit den Experten die Darstellung der Libellen-Beobachtungsdaten sowie interaktive Analysen entwickelt.

Highlights

Aufgebaut aus existierenden Bausteinen (Geo-Engine-UI)
Einfach zu bedienendes Datenportal mit domänenspezifischen Funktionen
Anbindung von Datensätzen im GeoPackage- und GeoTiff-Format

Methodik

Wir haben für NFDI4Biodiversity ein Datenportal entwickelt, das für Libellen-Experten einfach zu benutzen ist und Analysen zu Vorlieben bzgl. Temperaturen, Niederschlag und Nähe zu Gewässern je Libellenart für diese bereitstellt. Basierend auf existierenden Bausteinen der Geo Engine haben wir eine zielgruppengerechte webbasierte Anwendung erzeugt. Für die Anwender unsichtbar ist, dass die Infrastruktur in der Cloud läuft. Auch die Daten werden aus den passenden Dateninfrastrukturen in der Cloud geladen. Für den NFDI4Biodiversity eigenen Data-Lake, der eine Dateninfrastruktur für Biodiversitätsdaten bietet, wurde ein passender Datenzugriff implementiert, welcher wiederverwendbar ist. Ziel des Projekt ist es für verschiedenste Fach-Communities schnell und einfach interaktive Datenportale bereitstellen zu können. Basierend auf dem entwickelten Portal können jetzt, dank unseres Baukasten-Ansatz beliebige andere Fach-Datenportale sehr schnell erzeugt werden. Im Rahmen des Projekts haben wir einen wissenschaftlichen Aufsatz über das Thema verfasst und publiziert (https://doi.org/10.18420/BTW2023-55).

EnMap- und Sentinel-2-Projektportal für CropHype

Wir entwickeln Methoden zur Integration und Pipelines zur Verarbeitung von Daten des neuesten Hyperspektral-Satelliten des DLR: EnMap. Basierend auf unserer Geo Engine werden diese in der Cloud bereitgestellt und zur Entwicklung von ML-Modellen verwendet. Hinzukommt eine Anbindung an Sentinel-2-Daten, die zur gemeinsam mit den EnMap-Daten verwendet werden.

Highlights

Integration von Hyperspektraldaten des EnMap-Satellits
Automatisierung mit Verarbeitungs-Pipelines und Analysis Ready Data (ARD)
Hosting in der Cloud
Einheitlicher Zugriff / Data-Mesh für heterogene Daten (EnMap, Sentinel, DEM, Feldinformationen)

Methodik

Im CropHype-Projekt werden in einer Kooperation von KMUs und Universität für die Daten von EnMap, dem neuesten Hyperspektral-Satelliten des DLR, Methoden zum Monitoring von Vegetation und Feldfrüchten entwickelt. Hier unterstützen wir bei der Bereitstellung der Daten, der Entwicklung der Verarbeitungs-Pipeline und beim Deployment in der “EO-Lab”-Cloud. Die Geo Engine bietet in diesem Projekt viele Vorteile:

Es werden permanent neue Satellitenbilder erzeugt. Wir haben deshalb passende Workflows definiert, die automatisch alle verfügbaren Daten bereithalten und als “Analysis Ready Data (ARD)” zugreifbar machen.
Wir integrieren hier die Daten verschiedener Satelliten wie Sentinel-2 und EnMap sowie Informationen über hunderte einzelne Felder. Diese unterschiedlichen Daten sind durch Workflows direkt kombinierbar. Wenn Daten aktualisiert werden, können diese Workflows ohne Veränderung weiterverwendet werden.
Die entwickelten ML-Modelle können unmittelbar trainiert und anschließend als Service bereitgestellt werden. Dies dient auch als Vorbereitung um, die im Projekt entwickelten Analysen direkt als operationelle Dienste bereitstellen zu können.

NDVI-Zeitreihen für Feldfrucht-Monitoring

Für ein Agrar-Start-Up stellen wir einen Workflow bereit, der die Zeitreihe des mittleren monatlichen wolkenfreien NDVI aus Sentinel-2 berechnet. Die Zeitreihe wird monatlich automatisch erweitert. Die Daten stammen aus einem STAC-Dienst und müssen nicht vorgehalten werden. Mittels APIs können die Daten direkt in die Prozesse des Kunden integriert werden.

Highlights

Wiederverwendbare Workflows
Einmal definierter Workflow kann automatisiert für Folgemonate angewendet werden, um das Produkt zu aktualisieren
Datenabruf über STAC aus der Cloud

Methodik

Wir haben eine Verarbeitungs-Pipeline für Sentinel-2-basierte NDVI-Vegetationsindizes implementiert. Durch die Verwendung der Geo Engine können wir on-demand die aktuellen Sentinel-2 Daten über STAC aus der Cloud abrufen. Die abgerufenen Daten werden mittels eines entsprechenden Workflows weiterverarbeitet. Dabei werden sowohl Operatoren für die temporale Aggregation auf tägliche und monatliche Datenprodukte verwendet als auch Wolken-Pixel entfernt und die Formeln für Vegetationsindizes angewendet. Die Ergebnisse sind für weitere Verwendung bereit und können direkt über APIs abgerufen werden. Neben der On-demand-Verarbeitung können auch automatisierte Tasks gestartet werden, um Datenprodukte vorzuberechnen.

AI-Pipeline für Wettersatelliten-Daten

Wolken in Satellitenbildern tragen Informationen über das Wetter, können aber auch die Sicht auf das eigentliche Ziel blockieren. Wir haben ein KI-Modell sowie eine dazu passende Datenpipeline entwickelt, um Wolken zu erkennen und zu maskieren. Die Vorbereitung der verwendeten Meteosat Second Generation Zeitreihendaten sowie das KI-Training und die KI-Anwendung sind als wiederholbarer Workflow umgesetzt.

Highlights

Verarbeitung sehr großer Wettersatelliten-Zeitreihen
Wiederverwendbare Pipeline für AI-Training / -Anwendung
Training und Anwendung von Deep-Learning mit Convolutional Neural Networks

Methodik

Wolken sind ein Phänomen, welches für die meisten Satellitenbilder eine wichtige Rolle spielt. Während man z.B. in Sentinel-2-Zeitreihen versucht Bilder so zu kombinieren, dass die Erdoberfläche überall sichtbar wird, untersucht man mittels Wettersatelliten z.B. Wolken zu klassifizieren. Für die Klassifikation von Wolken haben wir eine komplette KI-Pipeline inklusive Vorverarbeitung umgesetzt. Trainiert haben wir auf einer Zeitreihe von 10 Jahren mit Bildern für alle 15-Minuten-Intervalle. Das sind über 35.000 Bilder pro Jahr. Die Rohdaten wurden in der Pipeline entpackt und für verschiedene Parameter vorbereitet. Diese Daten fließen dann in das angebundene ML-Framework Tensorflow um ein CNN Modell zu trainieren. Die Workflows, welche die Trainingsdaten liefern, können direkt verwendet werden, um das Modell für beliebige Zeitpunkte anzuwenden. Das trainierte Modell kann als Operator an den entsprechenden Workflow angehängt werden. So kann unter anderem jede neue Aufnahme instantan klassifiziert werden.

Das VAT-System

Das VAT-System ist ein flexibles Web-GIS für Biodiversitäts-Forscher. Es ist Teil des GFBio-Portals, das im Rahmen von NFDI4BioDiversity betrieben wird, und stellt Daten von deutschen Biodiversitätsarchiven und -sammlungen bereit. In diesem Portal können Biodiversitätsforscher die Daten visualisieren, explorieren und mit Umweltlayern kombinieren.

Highlights

Webbasiertes GIS für Biodiversitätsdaten
Integration verschiedenster Archive und Sammlungen von Biodiversitätsdaten
Integration in eine Forschungsinfrastruktur und dessen Portal
Exploration von Daten mit Multimedia-Verknüpfung
Integration mit Portal-Suche
Verwendung verschiedener Dateiformaten und Typen, z.B. Klimadaten (Raster) & Punktobservationen (Vektordaten)

Methodik

Das VAT-System ist ein Web-GIS das mit dem UI-Toolkit der Geo Engine gebaut und mit einem Geo-Engine-Backend verbunden ist. Es ist im GFBio-Look-and-Feel gebrandet und ist sowohl mit der Portalsuche über einen externen Datenprovider als auch dem GFBio-Single-Sign-On-Dienst über das OpenID-Connect-Protokoll verbunden. Die Archiv-Daten werden regelmäßig geharvestet und sind dann automatisch für Biodiversitätsforscher verfügbar. Neben dem Zugriff über das Web-GIS kann auch über die Python-Schnittstelle der Geo Engine über Jupyter-Notebooks auf abgeleitete Daten aus Workflows zugegriffen werden. Die Operator-Toolbox der Geo Engine erlaubt es Nutzern, Daten zu kombinieren oder Diagramme, z.B. Histogramme, über Daten zu erstellen. Daten können auch in tabellarischer Form angeschaut werden. Ein Highlight ist hier, dass verknüpfte Mediadaten automatisch in einem integrierten Viewer angezeigt werden. Dies ist praktisch, wenn z.B. eine Aufnahme eines Knochens mit einem Fundort verbunden ist.

Reporting von Flächen mit Umweltdaten

Aufgaben wie z.B. das regelmäßige Reporting von regionalen Wetter- und Klimakennzahlen z.B. zur Wasserverfügbarkeit benötigen oft viel händische Arbeit, um die Wetterdaten auf- und weiterzuverarbeiten. Hier haben wir einen Workflow implementiert, der diese Aufgabe komplett automatisieren kann.

Highlights

Automatisierung des Reportings: Berechnung von temporalen Aggregaten für Regionen
Integration von Regionen-Flächen (Polygonen) sowie Wetter- und Klimadaten

Methodik

Reporting von Wetter-abhängigen Kennzahlen für Regionen wie z.B. Gemeinden verursacht oft einen großen Aufwand an manueller Arbeit. Hier haben wir einen Workflow für einen solchen Case komplett automatisiert. Dieser Workflow kann als Blaupause auf viele andere, ähnliche Anwendungen übertragen werden. Zunächst haben wir die Daten von ECMWF und nationalen Wetterdiensten in die Geo Engine integriert. Mittels unserer Geo Engine-Toolbox werden alle nötigen Aufgaben als Workflow modelliert. Dies beinhaltet die Aggregation auf den Reporting-Zeitraum und die Extraktion und Berechnung von Kennzahlen je Region. Dank der Geo Engine sind die Ergebnisse, bzw. die Prozesse direkt über APIs (z.B. OGC) zugreifbar und können so direkt als Dienst in weitere Prozesse eingebunden oder als Dashboard bereitgestellt werden.

EuroCrops und Random Forest

Wir haben eine Pipeline zur Feldfrucht-Erkennung mit ML auf Sentinel-2-Daten und den EuroCrops-Feldern trainiert. Die Pipeline umfasst alle Schritte vom Abruf der Daten, über Vorverarbeitung, temporaler Aggregation auf Monate bis zum ML-Framework in Python. Hier wird unsere zur Geo Engine passende Python-Bibliothek verwendet.

Highlights

Sentinel-2-Datenabruf aus der AWS-Cloud über STAC
Raum-Zeitliches-Caching von Zwischenprodukten
Python-Library zum modellieren und und ausführen von Workflows
Anbindung von ML-Framework in Python

Methodik

Zum Training und Anwenden von ML für die Feldfruchtklassifikation werden sowohl Satellitendaten, z.B. von Sentinel-2, als auch Trainingsdaten, die die Information über die tatsächlich auf Feldern angebauten Früchte enthalten, benötigt. Besonders für die Klassifikation von Feldfrüchten sind Zeitreihen von großer Bedeutung, da man diese meist nur durch die Phänologie, also die Entwicklung über die Zeit, eindeutig unterscheiden kann. Mit der Geo Engine als Toolbox haben wir nicht nur den Datenzugriff automatisiert, sondern auch die Kombination und das Angleichen der verschiedenen Zeitreihen: Die Sentinel-2 Daten werden über das STAC Protokoll aus der Cloud geladen. Anschließend werden die Daten, sowie der abgeleitete NDVI, zu monatlichen Werte zusammengefasst. Jeweils 12 Monate werden dann in Kombination mit den Feldinformationen zum Training des ML Modells verwendet. Die Daten werden dabei als Datenstrom verarbeitet, dies ermöglicht beliebig große Datenmengen zu verwenden. Durch unsere Python-Bibliothek können wir verschiedenen ML Frameworks mit Daten füttern und so Modelle trainieren und anwenden.