Für das RESPECT-Projekt haben wir, basierend auf unserer Toolbox, ein Datenportal gebaut, das verschiedene Klima, Wetter, Umwelt und Beobachungs-Daten verfügbar und analysierbar macht. Zusätzlich haben wir das Datenportal mittels Single-Sign-On an eine bestehende Infrastruktur angebunden.
Im RESPECT-Projekt arbeiten Forschende von verschiedenen Universitäten und Instituten zusammen um Umweltveränderungen in den Ökosystemen der Biodiversitäts-Hotspots in Südecuador zu untersuchen. Dazu werden Lösungen sowohl zum Verwalten als auch zum Verarbeiten von Geo-Daten benötigt. Basierend auf der Geo-Engine-Toolbox haben wir ein interaktives Datenportal mit Analysefunktionen aufgesetzt. So können die Forschenden über UI und API auf auf große Datenmengen von Klima- und Wettermodellen zugreifen und diese für ihre Arbeiten nutzen. Um bestehende Nutzer-Accounts und Daten weiterzuverwenden wurde das Datenportal mit unserer Single-Sign-On-Lösung an eine bestehende Projektdatenbank angeknüpft. Im Projekt wird viel mit den genannten Modelldaten, Satellitendaten aber auch lokalen Beobachtungen gearbeitet. Um diese unterschiedlichen Daten zu kombinieren und komplexe Analyse auszuführen, wurden die Daten an die Geo Engine angebunden. Die Forschenden erhalten so Zugriff auf einen Werkzeugkasten von Operatoren. Die Operatoren können zu Workflows kombiniert werden, um Verarbeitungs-Pipelines zu modellieren. Die sonst sehr aufwendige Verarbeitung ist so mit wenig Aufwand einfach umsetzbar. Durch Workflows können auch Verarbeitungsschritte automatisiert werden, sodass diese nicht wiederholt werden müssen. Solche Workflows sind z. B. Satellitendaten von Wolken zu befreien oder Klimamodelldaten an das Gelände im Gebirge anzupassen.
Der EBV-Analyzer ist ein interaktives Datenportal für essentielle Biodiversitäts-Variablen. Hier haben wir, aus bestehenden Geo-Engine-Bausteinen, ein Datenportal implementiert, das für Biodiversitätsforscher und Stakeholder aus der Politik einfach zu nutzen ist. Im Co-Design-Prozess mit den Experten von GEO BON haben wir Visualisierung, Analysen aber auch die Integration der komplexen EBV-Zeitreihendaten entwickelt.
GEO BON stellt wichtige Biodiversitätsdaten in einem interaktiven und einfach zu verwendenden Web-Portal bereit. Basierend auf unserer Toolbox haben wir in diesem Projekt das interaktive Portal passend für Biodiversitätsforscher und Stakeholder aus der Politik implementiert. Damit haben wir die Möglichkeit geschaffen, die vorliegenden Zeitreihendaten einfach zu visualisieren und für einzelne Länder analysieren zu können. Dabei war die Herausforderung, heterogene Daten von verschiedenen Forschenden weltweit direkt zu integrieren und global verfügbar zu machen. Wir haben für die Geo Engine einen Adapter für das spezifische EBV-4D-Datenschema von GEO BON mit vielen Variablen und Zeitreihen implementiert. Um einen interaktiven Betrieb zu ermöglichen, werden die Daten darüber hinaus automatisch indiziert und bereitgehalten. Wir haben das Portal nahtlos in die bestehende Datenumgebung integriert.
Für die deutsche Libellenforscher-Community haben wir ein interaktives Datenportal entwickelt. Dabei haben wir im Co-Design-Prozess mit den Experten die Darstellung der Libellen-Beobachtungsdaten sowie interaktive Analysen entwickelt.
Wir haben für NFDI4Biodiversity ein Datenportal entwickelt, das für Libellen-Experten einfach zu benutzen ist und Analysen zu Vorlieben bzgl. Temperaturen, Niederschlag und Nähe zu Gewässern je Libellenart für diese bereitstellt. Basierend auf existierenden Bausteinen der Geo Engine haben wir eine zielgruppengerechte webbasierte Anwendung erzeugt. Für die Anwender unsichtbar ist, dass die Infrastruktur in der Cloud läuft. Auch die Daten werden aus den passenden Dateninfrastrukturen in der Cloud geladen. Für den NFDI4Biodiversity eigenen Data-Lake, der eine Dateninfrastruktur für Biodiversitätsdaten bietet, wurde ein passender Datenzugriff implementiert, welcher wiederverwendbar ist. Ziel des Projekt ist es für verschiedenste Fach-Communities schnell und einfach interaktive Datenportale bereitstellen zu können. Basierend auf dem entwickelten Portal können jetzt, dank unseres Baukasten-Ansatz beliebige andere Fach-Datenportale sehr schnell erzeugt werden. Im Rahmen des Projekts haben wir einen wissenschaftlichen Aufsatz über das Thema verfasst und publiziert (https://doi.org/10.18420/BTW2023-55).
Wir entwickeln Methoden zur Integration und Pipelines zur Verarbeitung von Daten des neuesten Hyperspektral-Satelliten des DLR: EnMap. Basierend auf unserer Geo Engine werden diese in der Cloud bereitgestellt und zur Entwicklung von ML-Modellen verwendet. Hinzukommt eine Anbindung an Sentinel-2-Daten, die zur gemeinsam mit den EnMap-Daten verwendet werden.
Im CropHype-Projekt werden in einer Kooperation von KMUs und Universität für die Daten von EnMap, dem neuesten Hyperspektral-Satelliten des DLR, Methoden zum Monitoring von Vegetation und Feldfrüchten entwickelt. Hier unterstützen wir bei der Bereitstellung der Daten, der Entwicklung der Verarbeitungs-Pipeline und beim Deployment in der “EO-Lab”-Cloud. Die Geo Engine bietet in diesem Projekt viele Vorteile:
Für ein Agrar-Start-Up stellen wir einen Workflow bereit, der die Zeitreihe des mittleren monatlichen wolkenfreien NDVI aus Sentinel-2 berechnet. Die Zeitreihe wird monatlich automatisch erweitert. Die Daten stammen aus einem STAC-Dienst und müssen nicht vorgehalten werden. Mittels APIs können die Daten direkt in die Prozesse des Kunden integriert werden.
Wir haben eine Verarbeitungs-Pipeline für Sentinel-2-basierte NDVI-Vegetationsindizes implementiert. Durch die Verwendung der Geo Engine können wir on-demand die aktuellen Sentinel-2 Daten über STAC aus der Cloud abrufen. Die abgerufenen Daten werden mittels eines entsprechenden Workflows weiterverarbeitet. Dabei werden sowohl Operatoren für die temporale Aggregation auf tägliche und monatliche Datenprodukte verwendet als auch Wolken-Pixel entfernt und die Formeln für Vegetationsindizes angewendet. Die Ergebnisse sind für weitere Verwendung bereit und können direkt über APIs abgerufen werden. Neben der On-demand-Verarbeitung können auch automatisierte Tasks gestartet werden, um Datenprodukte vorzuberechnen.
Wolken in Satellitenbildern tragen Informationen über das Wetter, können aber auch die Sicht auf das eigentliche Ziel blockieren. Wir haben ein KI-Modell sowie eine dazu passende Datenpipeline entwickelt, um Wolken zu erkennen und zu maskieren. Die Vorbereitung der verwendeten Meteosat Second Generation Zeitreihendaten sowie das KI-Training und die KI-Anwendung sind als wiederholbarer Workflow umgesetzt.
Wolken sind ein Phänomen, welches für die meisten Satellitenbilder eine wichtige Rolle spielt. Während man z.B. in Sentinel-2-Zeitreihen versucht Bilder so zu kombinieren, dass die Erdoberfläche überall sichtbar wird, untersucht man mittels Wettersatelliten z.B. Wolken zu klassifizieren. Für die Klassifikation von Wolken haben wir eine komplette KI-Pipeline inklusive Vorverarbeitung umgesetzt. Trainiert haben wir auf einer Zeitreihe von 10 Jahren mit Bildern für alle 15-Minuten-Intervalle. Das sind über 35.000 Bilder pro Jahr. Die Rohdaten wurden in der Pipeline entpackt und für verschiedene Parameter vorbereitet. Diese Daten fließen dann in das angebundene ML-Framework Tensorflow um ein CNN Modell zu trainieren. Die Workflows, welche die Trainingsdaten liefern, können direkt verwendet werden, um das Modell für beliebige Zeitpunkte anzuwenden. Das trainierte Modell kann als Operator an den entsprechenden Workflow angehängt werden. So kann unter anderem jede neue Aufnahme instantan klassifiziert werden.
Das VAT-System ist ein flexibles Web-GIS für Biodiversitäts-Forscher. Es ist Teil des GFBio-Portals, das im Rahmen von NFDI4BioDiversity betrieben wird, und stellt Daten von deutschen Biodiversitätsarchiven und -sammlungen bereit. In diesem Portal können Biodiversitätsforscher die Daten visualisieren, explorieren und mit Umweltlayern kombinieren.
Das VAT-System ist ein Web-GIS das mit dem UI-Toolkit der Geo Engine gebaut und mit einem Geo-Engine-Backend verbunden ist. Es ist im GFBio-Look-and-Feel gebrandet und ist sowohl mit der Portalsuche über einen externen Datenprovider als auch dem GFBio-Single-Sign-On-Dienst über das OpenID-Connect-Protokoll verbunden. Die Archiv-Daten werden regelmäßig geharvestet und sind dann automatisch für Biodiversitätsforscher verfügbar. Neben dem Zugriff über das Web-GIS kann auch über die Python-Schnittstelle der Geo Engine über Jupyter-Notebooks auf abgeleitete Daten aus Workflows zugegriffen werden. Die Operator-Toolbox der Geo Engine erlaubt es Nutzern, Daten zu kombinieren oder Diagramme, z.B. Histogramme, über Daten zu erstellen. Daten können auch in tabellarischer Form angeschaut werden. Ein Highlight ist hier, dass verknüpfte Mediadaten automatisch in einem integrierten Viewer angezeigt werden. Dies ist praktisch, wenn z.B. eine Aufnahme eines Knochens mit einem Fundort verbunden ist.
Aufgaben wie z.B. das regelmäßige Reporting von regionalen Wetter- und Klimakennzahlen z.B. zur Wasserverfügbarkeit benötigen oft viel händische Arbeit, um die Wetterdaten auf- und weiterzuverarbeiten. Hier haben wir einen Workflow implementiert, der diese Aufgabe komplett automatisieren kann.
Reporting von Wetter-abhängigen Kennzahlen für Regionen wie z.B. Gemeinden verursacht oft einen großen Aufwand an manueller Arbeit. Hier haben wir einen Workflow für einen solchen Case komplett automatisiert. Dieser Workflow kann als Blaupause auf viele andere, ähnliche Anwendungen übertragen werden. Zunächst haben wir die Daten von ECMWF und nationalen Wetterdiensten in die Geo Engine integriert. Mittels unserer Geo Engine-Toolbox werden alle nötigen Aufgaben als Workflow modelliert. Dies beinhaltet die Aggregation auf den Reporting-Zeitraum und die Extraktion und Berechnung von Kennzahlen je Region. Dank der Geo Engine sind die Ergebnisse, bzw. die Prozesse direkt über APIs (z.B. OGC) zugreifbar und können so direkt als Dienst in weitere Prozesse eingebunden oder als Dashboard bereitgestellt werden.
Wir haben eine Pipeline zur Feldfrucht-Erkennung mit ML auf Sentinel-2-Daten und den EuroCrops-Feldern trainiert. Die Pipeline umfasst alle Schritte vom Abruf der Daten, über Vorverarbeitung, temporaler Aggregation auf Monate bis zum ML-Framework in Python. Hier wird unsere zur Geo Engine passende Python-Bibliothek verwendet.
Zum Training und Anwenden von ML für die Feldfruchtklassifikation werden sowohl Satellitendaten, z.B. von Sentinel-2, als auch Trainingsdaten, die die Information über die tatsächlich auf Feldern angebauten Früchte enthalten, benötigt. Besonders für die Klassifikation von Feldfrüchten sind Zeitreihen von großer Bedeutung, da man diese meist nur durch die Phänologie, also die Entwicklung über die Zeit, eindeutig unterscheiden kann. Mit der Geo Engine als Toolbox haben wir nicht nur den Datenzugriff automatisiert, sondern auch die Kombination und das Angleichen der verschiedenen Zeitreihen: Die Sentinel-2 Daten werden über das STAC Protokoll aus der Cloud geladen. Anschließend werden die Daten, sowie der abgeleitete NDVI, zu monatlichen Werte zusammengefasst. Jeweils 12 Monate werden dann in Kombination mit den Feldinformationen zum Training des ML Modells verwendet. Die Daten werden dabei als Datenstrom verarbeitet, dies ermöglicht beliebig große Datenmengen zu verwenden. Durch unsere Python-Bibliothek können wir verschiedenen ML Frameworks mit Daten füttern und so Modelle trainieren und anwenden.