Data Pioneers Create Camp „netCDF challenge“

Am 2.2.2017 hatten wir im Rahmen des Data Pioneers Piloten unser erstes Create Camp. Mit dabei waren 5 Organisationen, die ihre Daten zur Verwendung anboten und über 30 Teilnehmer*innen, die rund um dieses Daten Ideen sammelten. Dabei entstandenen 7 Projektideen, deren Fortschritt und Weiterentwicklung wir hier der Reihe nach vorstellen möchten.

Open Data und die Sache mit den Formaten

Open Data kommt in vielen verschiedenen Formen vor, da die Speicherung und die Verwendung von Daten immer auch von dem Programm abhängt, mit dem die Daten erstellt wurden. Je nach Kontext, müssen Daten unterschiedlichen Ansprüchen genügen, um für eine Weiterverwendung möglichst einfach zur Verfügung zu stehen. Um diesem Umstand Rechnung zu tragen, wird stets empfohlen, keine proprietären Formate zu verwenden, also keine Formate zu verwenden, die etwa nur mit kostenpflichtigen Programmen zu öffnen und weiter zu verarbeiten sind. In unseren FAQs empfehlen wir daher etwa die gängigen Formate JSON, XML, CSV oder RDF.

Die „netCDF challenge“ – eine weitere Format-Frage

Mit einer typischen Hürde, die in diesem Kontext entstehen kann, sah sich die Arbeitsgruppe Julia Diessl, Dominika Heller und Franz Rinnerthaler konfrontiert. Die drei Create Camp-Teilnehmer*innen interessierten sich für die am Portal des Climate Change Centre Austria www.ccca.ac.at (CCCA) zur Verfügung stehenden ZAMG Daten – und stolperten dabei rasch über das Format „NetCDF“ (Network Common Data Format).

Dazu sei gesagt, dass NetCDF den offenen Standards entspricht, es zählt nur nicht zu den gängigen Formaten. Um genau zu sein, ist NetCDF ein Format, das vor allem im wissenschaftlichen Kontext Verwendung findet, hier vor allem in der Klimatologie und in Geoinformationssystemen. Es ist dazu gedacht, sehr große und komplexe Datenmengen in komprimierter Form zur Verfügung stellen zu können. Ist man nicht vom Fach, stellt das vor einige Hürden, bevor man die Daten ansehen geschweige denn etwas damit machen kann. Im Falle des CCCA sind die meisten der NetCDF Daten zudem für eine Weiterverwendung für Forschungszwecke eingeschränkt, was vor allem der Besorgnis um eine Fehlinterpretation der Daten entspringt.

Der Weg zum Erfolg: Merchandise und Visualisierung

Unsere Create Camp-Teilnehmer*innen stolperten also über besagte Daten und wollten sich ursprünglich bloß ansehen, um was für Daten es sich eigentlich handelt, um gemeinsam Ideen dazu zu entwickeln. Doch so einfach war das nicht. Niemand der drei kommt aus dem entsprechenden wissenschaftlichen Kontext, das Format NetCDF stellte also bereits eine erste nicht zu unterschätzende Hürde dar, die jedoch ihren Ehrgeiz weckte.

Der Hauptteil des Tages wurde schlussendlich darauf verwandt herauszufinden, um welche Daten es sich handelt – und wie diese Daten trotz sehr speziellem Format weiterverwendet werden können. Um dies bewerkstelligen zu können, konzentrierte sich die Gruppe auf einen einzigen, kleineren Datensatz der verschiedenen zur Verfügung stehenden NetCDF Daten, nämlich aus dem „ÖKS15 Global Radiation Climate Index„, welcher Jahreswerte von 1980 bis 2012 im Bereich Klimaindizes für Globalstrahlung bereit hält.

Visualisierung 1 mit Paraview

Erste Suchanfragen ans Internet wie man diese Format am besten öffnet waren nicht sehr erfolgreich. Eine kurze Verschnauf- und Kaffeepause hat hier dann weitergeholfen, als von einem ZAMG-Mitarbeiter der persönliche Hinweis kam, dass es doch einen NetCDF-Viewer gäbe, der allerdings ausgesprochen schwierig zu finden war. (Warum in den Untiefen des Netzes suchen, wenn die Antwort doch so nah…) Dieser Viewer (Panoply) wurde nun verwendet um die Daten in einem Format zu exportieren, in welchem dann auch in einfachen Scripts weiterverarbeitet werden kann.

Visualisierung 2 mit Skript von Franz Rinnerthaler

Am Ende des Tages konnte das Team zwei Visualisierungen mit den entschlüsselten Daten erzeugen. Die erste Visualisierung zeigt, was passiert, wenn die Daten wie sie sind und ohne Skript in das gängige Daten-Visualisierungsprogramm Paraview eingespielt werden. Während die bunte Farbskala durchaus für Marketingzwecke genutzt werden könnte, wie die Gruppe am Ende anregte, helfen sie dem menschlichen Betrachter zum Verständnis der Daten nur sehr bedingt weiter.

Einmal die Datensortierung ungefähr verstanden und mit besagten weiteren Informationen ausgestattet, wurde die Gruppe aktiv und schrieb ein Skript um die Daten visualisieren zu können. Das Ergebnis dieses Versuchs führte bereits zu einem deutlich aufschlussreicheren Bild, das erahnen lässt, wie viel Wissen hinter jeder einzelnen gelungenen Visualisierung steckt – vor allem, wenn ein Datenformat, wie im vorliegenden Fall, keinem gängigen entspricht.

Open Data: Vorteile für anbietende Organisationen

Die zu bewältigenden Hürden der Gruppe zeigen gewissermaßen einen sehr typischen Vorteil auf, den Daten-Anbieter*innen durch das Öffnen ihrer Daten haben können. Kleine Fehlfunktionen, wie etwa die Weigerung des Portals, Datensätze größer als 1 GB herunterladen zu lassen, wurden entdeckt. Dinge, die für Expert*innen selbstverständlich sind und daher als ergänzende Angaben gerne vergessen werden, wie etwas das Wissen um spezielle Visualisierungsprogramme, sind es für Interessent*innen längst nicht. Um die Daten also einem breiteren Publikum zugänglich zu machen und damit auch auf deren Ideen zugreifen zu können, braucht es entweder die Daten zusätzlich in gängigen Formaten oder entsprechende Beschreibungen und Informationen – oder weitere Services. Diesen Weg schlägt CCCA aktuell auch tatsächlich ein, wie sich herausstellte:

Klimatag-Programm

Das CCCA Datenzentrum wird zum 18. Österreichischer Klimatag, der vom 23. bis 24. Mai 2017 im Hauptgebäude der Universität Wien stattfindet, neue Funktionen launchen, um auch webbasierte Tools zur Visualisierung, dem Export von Punktdaten in CSV-Dateien und einer Versionierung und Generierung von individuell gestaltbaren Subsets (DataCitation) von NetCDF Daten bereitzustellen: data.ccca.ac.at

Darüber hinaus haben als Resultat der Hürden eine ergänzende Beschreibung bekommen, die künftigen Daten-Interessent*innen den Umgang mit dem NetCDF-Format erleichtern kann.

Die Beschreibung der CCCA Expert*innen

Das Projekt ÖKS15 (Österreichische Klimaszenarien bis 2100) berechnet mit Hilfe von empirisch-statistischen Downscaling (ESD)-Methoden wichtige klimatologische Parameter aus den EURO-CORDEX RCMs, die auf einen hochaufgelösten 1×1 km² Raster gebracht und daraus Klimaänderungssignale über verschiedenste Klimaindizes berechnet werden. Sämtliche Datensätze werden über das CCCA Datenzentrum verfügbar gemacht.

Diese Daten sind im NetCDF (Network Common Data Format) abgelegt. NetCDF ist ein offener Standard, als maschinenunabhängiges Datenformat entwickelt wurde und hauptsächlich in der Wissenschaft für die strukturierte Ablage mehrdimensionaler Daten, in einer Art Container gehalten.

NetCDF-Daten beinhalten Attribute, Dimensionen und Variablen. Ein Attribut hat einen Namen und einen Wert und kann mit einer Variablen assoziiert werden. Dimensionen werden benutzt um die Größe der Variablenfelder zu definieren. Die Variable ist der Datencontainer für einen Einzelwert oder einer komplexen Daten-Matrix. Der Datentyp, die Anzahl an Dimensionen und notwendige Attribute werden deklariert. Als Beispiel: Die Temperaturdaten werden als gerasterte, georeferenzierte Daten in mehreren Einzeldateien getrennt nach Region für jeweils einen Tag, eine Woche und einen Monat bereitgestellt. Die Werte eines Rasterpixels entsprechen den gemittelten Temperaturwerten für den jeweiligen Zeitraum am entsprechenden Ort.

ÖKS15 Daten am ODP

Die hier erwähnten ÖKS15 Daten finden sich als Ergebnis jetzt übrigens auch am ODP: data.opendataportal.at/dataset/global-radiation-climate-index-osterreichische-klimaszenarien – und werden in Kürze um das am Create Camp erzeugte CSV erweitert.

Damit bleibt uns, mit den Worten unserer Create Camp Arbeitsgruppe gesprochen, am Ende nur noch eins zu sagen:

Happy data using!

(Und wie immer stellen wir gerne den Kontakt her, wenn es Interesse gibt, sich mit unseren Teilnehmer*innen im Detail weiter zu unterhalten.)

Teilen

Hinterlasse eine Antwort