Referenzen & Beispiele

Ecuador-Datenportal mit Umweltdaten

de/1-respect

Für das RESPECT-Projekt haben wir, basierend auf unserer Toolbox, ein Datenportal gebaut, das verschiedene Klima, Wetter, Umwelt und Beobachungs-Daten verfügbar und analysierbar macht. Zusätzlich haben wir das Datenportal mittels Single-Sign-On an eine bestehende Infrastruktur angebunden.

Highlights

  • Integration von Projektdatensätzen (Modelle, Point-of-Interest, Polygonale Flächen)
  • Anbindung von externen Daten, z.B. ECMWF, Sentinel-3
  • Zugriff über Web-GIS oder Jupyter Notebooks
  • Anbindung an Projektinfrastruktur mit SSO

Methodik

Im RESPECT-Projekt arbeiten Forschende von verschiedenen Universitäten und Instituten zusammen um Umweltveränderungen in den Ökosystemen der Biodiversitäts-Hotspots in Südecuador zu untersuchen. Dazu werden Lösungen sowohl zum Verwalten als auch zum Verarbeiten von Geo-Daten benötigt. Basierend auf der Geo-Engine-Toolbox haben wir ein interaktives Datenportal mit Analysefunktionen aufgesetzt. So können die Forschenden über UI und API auf auf große Datenmengen von Klima- und Wettermodellen zugreifen und diese für ihre Arbeiten nutzen. Um bestehende Nutzer-Accounts und Daten weiterzuverwenden wurde das Datenportal mit unserer Single-Sign-On-Lösung an eine bestehende Projektdatenbank angeknüpft. Im Projekt wird viel mit den genannten Modelldaten, Satellitendaten aber auch lokalen Beobachtungen gearbeitet. Um diese unterschiedlichen Daten zu kombinieren und komplexe Analyse auszuführen, wurden die Daten an die Geo Engine angebunden. Die Forschenden erhalten so Zugriff auf einen Werkzeugkasten von Operatoren. Die Operatoren können zu Workflows kombiniert werden, um Verarbeitungs-Pipelines zu modellieren. Die sonst sehr aufwendige Verarbeitung ist so mit wenig Aufwand einfach umsetzbar. Durch Workflows können auch Verarbeitungsschritte automatisiert werden, sodass diese nicht wiederholt werden müssen. Solche Workflows sind z. B. Satellitendaten von Wolken zu befreien oder Klimamodelldaten an das Gelände im Gebirge anzupassen.

EBV-Analyzer

de/2-ebv-analyzer

Der EBV-Analyzer ist ein interaktives Datenportal für essentielle Biodiversitäts-Variablen. Hier haben wir, aus bestehenden Geo-Engine-Bausteinen, ein Datenportal implementiert, das für Biodiversitätsforscher und Stakeholder aus der Politik einfach zu nutzen ist. Im Co-Design-Prozess mit den Experten von GEO BON haben wir Visualisierung, Analysen aber auch die Integration der komplexen EBV-Zeitreihendaten entwickelt.

Highlights

  • Integration verschiedenster EBV-Datasets
  • Entwicklung eines Adapters für GEO-BON-spezifisches EBV-Datenformate
  • Indexierung von Daten & Daten-Zeitreihen

Methodik

GEO BON stellt wichtige Biodiversitätsdaten in einem interaktiven und einfach zu verwendenden Web-Portal bereit. Basierend auf unserer Toolbox haben wir in diesem Projekt das interaktive Portal passend für Biodiversitätsforscher und Stakeholder aus der Politik implementiert. Damit haben wir die Möglichkeit geschaffen, die vorliegenden Zeitreihendaten einfach zu visualisieren und für einzelne Länder analysieren zu können. Dabei war die Herausforderung, heterogene Daten von verschiedenen Forschenden weltweit direkt zu integrieren und global verfügbar zu machen. Wir haben für die Geo Engine einen Adapter für das spezifische EBV-4D-Datenschema von GEO BON mit vielen Variablen und Zeitreihen implementiert. Um einen interaktiven Betrieb zu ermöglichen, werden die Daten darüber hinaus automatisch indiziert und bereitgehalten. Wir haben das Portal nahtlos in die bestehende Datenumgebung integriert.

GdO-Libellenportal im Rahmen von NFDI4Biodiversity

de/3-gdo

Für die deutsche Libellenforscher-Community haben wir ein interaktives Datenportal entwickelt. Dabei haben wir im Co-Design-Prozess mit den Experten die Darstellung der Libellen-Beobachtungsdaten sowie interaktive Analysen entwickelt.

Highlights

  • Aufgebaut aus existierenden Bausteinen (Geo-Engine-UI)
  • Einfach zu bedienendes Datenportal mit domänenspezifischen Funktionen
  • Anbindung von Datensätzen im GeoPackage- und GeoTiff-Format

Methodik

Wir haben für NFDI4Biodiversity ein Datenportal entwickelt, das für Libellen-Experten einfach zu benutzen ist und Analysen zu Vorlieben bzgl. Temperaturen, Niederschlag und Nähe zu Gewässern je Libellenart für diese bereitstellt. Basierend auf existierenden Bausteinen der Geo Engine haben wir eine zielgruppengerechte webbasierte Anwendung erzeugt. Für die Anwender unsichtbar ist, dass die Infrastruktur in der Cloud läuft. Auch die Daten werden aus den passenden Dateninfrastrukturen in der Cloud geladen. Für den NFDI4Biodiversity eigenen Data-Lake, der eine Dateninfrastruktur für Biodiversitätsdaten bietet, wurde ein passender Datenzugriff implementiert, welcher wiederverwendbar ist. Ziel des Projekt ist es für verschiedenste Fach-Communities schnell und einfach interaktive Datenportale bereitstellen zu können. Basierend auf dem entwickelten Portal können jetzt, dank unseres Baukasten-Ansatz beliebige andere Fach-Datenportale sehr schnell erzeugt werden. Im Rahmen des Projekts haben wir einen wissenschaftlichen Aufsatz über das Thema verfasst und publiziert (https://doi.org/10.18420/BTW2023-55).

EnMap- und Sentinel-2-Projektportal für CropHype

de/4-crophype

Wir entwickeln Methoden zur Integration und Pipelines zur Verarbeitung von Daten des neuesten Hyperspektral-Satelliten des DLR: EnMap. Basierend auf unserer Geo Engine werden diese in der Cloud bereitgestellt und zur Entwicklung von ML-Modellen verwendet. Hinzukommt eine Anbindung an Sentinel-2-Daten, die zur gemeinsam mit den EnMap-Daten verwendet werden.

Highlights

  • Integration von Hyperspektraldaten des EnMap-Satellits
  • Automatisierung mit Verarbeitungs-Pipelines und Analysis Ready Data (ARD)
  • Hosting in der Cloud
  • Einheitlicher Zugriff / Data-Mesh für heterogene Daten (EnMap, Sentinel, DEM, Feldinformationen)

Methodik

Im CropHype-Projekt werden in einer Kooperation von KMUs und Universität für die Daten von EnMap, dem neuesten Hyperspektral-Satelliten des DLR, Methoden zum Monitoring von Vegetation und Feldfrüchten entwickelt. Hier unterstützen wir bei der Bereitstellung der Daten, der Entwicklung der Verarbeitungs-Pipeline und beim Deployment in der “EO-Lab”-Cloud. Die Geo Engine bietet in diesem Projekt viele Vorteile:

  • Es werden permanent neue Satellitenbilder erzeugt. Wir haben deshalb passende Workflows definiert, die automatisch alle verfügbaren Daten bereithalten und als “Analysis Ready Data (ARD)” zugreifbar machen.
  • Wir integrieren hier die Daten verschiedener Satelliten wie Sentinel-2 und EnMap sowie Informationen über hunderte einzelne Felder. Diese unterschiedlichen Daten sind durch Workflows direkt kombinierbar. Wenn Daten aktualisiert werden, können diese Workflows ohne Veränderung weiterverwendet werden.
  • Die entwickelten ML-Modelle können unmittelbar trainiert und anschließend als Service bereitgestellt werden. Dies dient auch als Vorbereitung um, die im Projekt entwickelten Analysen direkt als operationelle Dienste bereitstellen zu können.

NDVI-Zeitreihen für Feldfrucht-Monitoring

de/5-ndvi

Für ein Agrar-Start-Up stellen wir einen Workflow bereit, der die Zeitreihe des mittleren monatlichen wolkenfreien NDVI aus Sentinel-2 berechnet. Die Zeitreihe wird monatlich automatisch erweitert. Die Daten stammen aus einem STAC-Dienst und müssen nicht vorgehalten werden. Mittels APIs können die Daten direkt in die Prozesse des Kunden integriert werden.

Highlights

  • Wiederverwendbare Workflows
  • Einmal definierter Workflow kann automatisiert für Folgemonate angewendet werden, um das Produkt zu aktualisieren
  • Datenabruf über STAC aus der Cloud

Methodik

Wir haben eine Verarbeitungs-Pipeline für Sentinel-2-basierte NDVI-Vegetationsindizes implementiert. Durch die Verwendung der Geo Engine können wir on-demand die aktuellen Sentinel-2 Daten über STAC aus der Cloud abrufen. Die abgerufenen Daten werden mittels eines entsprechenden Workflows weiterverarbeitet. Dabei werden sowohl Operatoren für die temporale Aggregation auf tägliche und monatliche Datenprodukte verwendet als auch Wolken-Pixel entfernt und die Formeln für Vegetationsindizes angewendet. Die Ergebnisse sind für weitere Verwendung bereit und können direkt über APIs abgerufen werden. Neben der On-demand-Verarbeitung können auch automatisierte Tasks gestartet werden, um Datenprodukte vorzuberechnen.

AI-Pipeline für Wettersatelliten-Daten

de/6-ai-weather

Wolken in Satellitenbildern tragen Informationen über das Wetter, können aber auch die Sicht auf das eigentliche Ziel blockieren. Wir haben ein KI-Modell sowie eine dazu passende Datenpipeline entwickelt, um Wolken zu erkennen und zu maskieren. Die Vorbereitung der verwendeten Meteosat Second Generation Zeitreihendaten sowie das KI-Training und die KI-Anwendung sind als wiederholbarer Workflow umgesetzt.

Highlights

  • Verarbeitung sehr großer Wettersatelliten-Zeitreihen
  • Wiederverwendbare Pipeline für AI-Training / -Anwendung
  • Training und Anwendung von Deep-Learning mit Convolutional Neural Networks

Methodik

Wolken sind ein Phänomen, welches für die meisten Satellitenbilder eine wichtige Rolle spielt. Während man z.B. in Sentinel-2-Zeitreihen versucht Bilder so zu kombinieren, dass die Erdoberfläche überall sichtbar wird, untersucht man mittels Wettersatelliten z.B. Wolken zu klassifizieren. Für die Klassifikation von Wolken haben wir eine komplette KI-Pipeline inklusive Vorverarbeitung umgesetzt. Trainiert haben wir auf einer Zeitreihe von 10 Jahren mit Bildern für alle 15-Minuten-Intervalle. Das sind über 35.000 Bilder pro Jahr. Die Rohdaten wurden in der Pipeline entpackt und für verschiedene Parameter vorbereitet. Diese Daten fließen dann in das angebundene ML-Framework Tensorflow um ein CNN Modell zu trainieren. Die Workflows, welche die Trainingsdaten liefern, können direkt verwendet werden, um das Modell für beliebige Zeitpunkte anzuwenden. Das trainierte Modell kann als Operator an den entsprechenden Workflow angehängt werden. So kann unter anderem jede neue Aufnahme instantan klassifiziert werden.

Das VAT-System

de/7-vat

Das VAT-System ist ein flexibles Web-GIS für Biodiversitäts-Forscher. Es ist Teil des GFBio-Portals, das im Rahmen von NFDI4BioDiversity betrieben wird, und stellt Daten von deutschen Biodiversitätsarchiven und -sammlungen bereit. In diesem Portal können Biodiversitätsforscher die Daten visualisieren, explorieren und mit Umweltlayern kombinieren.

Highlights

  • Webbasiertes GIS für Biodiversitätsdaten
  • Integration verschiedenster Archive und Sammlungen von Biodiversitätsdaten
  • Integration in eine Forschungsinfrastruktur und dessen Portal
  • Exploration von Daten mit Multimedia-Verknüpfung
  • Integration mit Portal-Suche
  • Verwendung verschiedener Dateiformaten und Typen, z.B. Klimadaten (Raster) & Punktobservationen (Vektordaten)

Methodik

Das VAT-System ist ein Web-GIS das mit dem UI-Toolkit der Geo Engine gebaut und mit einem Geo-Engine-Backend verbunden ist. Es ist im GFBio-Look-and-Feel gebrandet und ist sowohl mit der Portalsuche über einen externen Datenprovider als auch dem GFBio-Single-Sign-On-Dienst über das OpenID-Connect-Protokoll verbunden. Die Archiv-Daten werden regelmäßig geharvestet und sind dann automatisch für Biodiversitätsforscher verfügbar. Neben dem Zugriff über das Web-GIS kann auch über die Python-Schnittstelle der Geo Engine über Jupyter-Notebooks auf abgeleitete Daten aus Workflows zugegriffen werden. Die Operator-Toolbox der Geo Engine erlaubt es Nutzern, Daten zu kombinieren oder Diagramme, z.B. Histogramme, über Daten zu erstellen. Daten können auch in tabellarischer Form angeschaut werden. Ein Highlight ist hier, dass verknüpfte Mediadaten automatisch in einem integrierten Viewer angezeigt werden. Dies ist praktisch, wenn z.B. eine Aufnahme eines Knochens mit einem Fundort verbunden ist.

Reporting von Flächen mit Umweltdaten

de/8-climate-polygons

Aufgaben wie z.B. das regelmäßige Reporting von regionalen Wetter- und Klimakennzahlen z.B. zur Wasserverfügbarkeit benötigen oft viel händische Arbeit, um die Wetterdaten auf- und weiterzuverarbeiten. Hier haben wir einen Workflow implementiert, der diese Aufgabe komplett automatisieren kann.

Highlights

  • Automatisierung des Reportings: Berechnung von temporalen Aggregaten für Regionen
  • Integration von Regionen-Flächen (Polygonen) sowie Wetter- und Klimadaten

Methodik

Reporting von Wetter-abhängigen Kennzahlen für Regionen wie z.B. Gemeinden verursacht oft einen großen Aufwand an manueller Arbeit. Hier haben wir einen Workflow für einen solchen Case komplett automatisiert. Dieser Workflow kann als Blaupause auf viele andere, ähnliche Anwendungen übertragen werden. Zunächst haben wir die Daten von ECMWF und nationalen Wetterdiensten in die Geo Engine integriert. Mittels unserer Geo Engine-Toolbox werden alle nötigen Aufgaben als Workflow modelliert. Dies beinhaltet die Aggregation auf den Reporting-Zeitraum und die Extraktion und Berechnung von Kennzahlen je Region. Dank der Geo Engine sind die Ergebnisse, bzw. die Prozesse direkt über APIs (z.B. OGC) zugreifbar und können so direkt als Dienst in weitere Prozesse eingebunden oder als Dashboard bereitgestellt werden.

EuroCrops und Random Forest

de/9-eurocrops

Wir haben eine Pipeline zur Feldfrucht-Erkennung mit ML auf Sentinel-2-Daten und den EuroCrops-Feldern trainiert. Die Pipeline umfasst alle Schritte vom Abruf der Daten, über Vorverarbeitung, temporaler Aggregation auf Monate bis zum ML-Framework in Python. Hier wird unsere zur Geo Engine passende Python-Bibliothek verwendet.

Highlights

  • Sentinel-2-Datenabruf aus der AWS-Cloud über STAC
  • Raum-Zeitliches-Caching von Zwischenprodukten
  • Python-Library zum modellieren und und ausführen von Workflows
  • Anbindung von ML-Framework in Python

Methodik

Zum Training und Anwenden von ML für die Feldfruchtklassifikation werden sowohl Satellitendaten, z.B. von Sentinel-2, als auch Trainingsdaten, die die Information über die tatsächlich auf Feldern angebauten Früchte enthalten, benötigt. Besonders für die Klassifikation von Feldfrüchten sind Zeitreihen von großer Bedeutung, da man diese meist nur durch die Phänologie, also die Entwicklung über die Zeit, eindeutig unterscheiden kann. Mit der Geo Engine als Toolbox haben wir nicht nur den Datenzugriff automatisiert, sondern auch die Kombination und das Angleichen der verschiedenen Zeitreihen: Die Sentinel-2 Daten werden über das STAC Protokoll aus der Cloud geladen. Anschließend werden die Daten, sowie der abgeleitete NDVI, zu monatlichen Werte zusammengefasst. Jeweils 12 Monate werden dann in Kombination mit den Feldinformationen zum Training des ML Modells verwendet. Die Daten werden dabei als Datenstrom verarbeitet, dies ermöglicht beliebig große Datenmengen zu verwenden. Durch unsere Python-Bibliothek können wir verschiedenen ML Frameworks mit Daten füttern und so Modelle trainieren und anwenden.