Global Navigation

Einfacher, schneller, besser – Linked Open Statistical Data

Heute muss man erheblichen Aufwand betreiben, um eine detaillierte Fragestellung mit Daten aus dem Internet zu beantworten. Die Daten sind zudem für den Computer oft nicht mit einer klaren Semantik verständlich. Damit sich das ändert setzen wir in Zukunft auf Linked Open Data (LOD) und in unserem Fall auf Linked Open Statistical Data (LOSD). (31.07.2018)

Heute muss man erheblichen Aufwand betreiben, um eine detaillierte Fragestellung mit Daten aus dem Internet zu beantworten. Sucht man zum Beispiel nach der Bevölkerung in der Stadt Zürich und der Stadt Basel, findet man diese Zahlen in einem Excel- oder in einem csv-File im OGD-Katalog. Zuerst muss man aber die jeweiligen Excel-Dokumente suchen und anschliessend darin die gewünschte Kennzahl. Weiter muss man diese beiden Zahlen zusammenfügen, um sie zu vergleichen. Doch was passiert, wenn die beiden Städte unterschiedliche Bevölkerungsdefinitionen verwenden? Sind die Werte dann noch vergleichbar? Wäre es nicht einfacher, mit ein paar Zeilen Code oder sogar einer Suchmaschine diese Datenabfrage zu formulieren und dann auch gleich das Resultat zu erhalten? Und zwar in der Gewissheit, dass beide Städte die gleiche Definition von Bevölkerung verwenden.

Heutige Datendiffusion

Die Diffusion statistischer Daten konzentriert sich heutzutage auf Excel- und csv-Files. Zudem sind die Daten der statistischen Ämter häufig nicht offen zugänglich, und auch die Formate unterscheiden sich. Die Datenstruktur ist nicht überall gleich, und die Definitionen weichen voneinander ab. Auch auf der Webseite von Statistik Stadt Zürich sind unterschiedliche statistische Daten zur Stadt Zürich als Excel-Tabellen verfügbar. Im Open-Government-Data-Katalog sind weitere detaillierte und gut dokumentierte Daten in maschinenlesbarer Form frei zum Download zugänglich. Diese Daten lassen sich auch mit bescheidenen technischen Kenntnissen auswerten. Sie müssen zur Weiterverarbeitung jedoch heruntergeladen werden und sind für Computer nicht in einer verständlichen Logik verfügbar. Um die einleitende Fragestellung einfacher beantworten zu können, müssen die Daten für Computer mit einer klaren Semantik daherkommen. Dazu setzen wir in Zukunft auf Linked Open Data (LOD) und in unserem Fall auf Linked Open Statistical Data (LOSD).

Linked Data erklärt

Das Konzept von Internetseiten ist uns allen bekannt. Dokumente, die zum Beispiel Text, Bilder, Videos oder interaktive Grafiken enthalten, werden als HTML-Seiten auf Servern zur Verfügung gestellt. Die Verlinkung einzelner Elemente solcher Webseiten via URL zu anderen Webseiten ist für uns heute selbstverständlich, lässt uns von Information zu Information navigieren und liegt dem Erfolg des Internets zugrunde. Für uns ist dabei die Semantik, also die Bedeutung der Verlinkung oder des Inhalts, verständlich. Wenn wir zum Beispiel nach «Mammut» suchen, können wir gut unterscheiden, ob es sich um die ausgestorbene Elefantengattung oder den Outdoor-Ausrüster handelt. Diese Unterscheidung ist für Computer aber nicht ohne weiteres möglich. Es braucht weitere Informationen, damit auch Computer den Kontext und Inhalt verstehen. Diese fehlende Semantik wird mit LOD in die Daten integriert.

Damit Computer die Semantik verstehen, müssen die Informationen aus strukturierten Daten in ihre Einzelteile zerlegt und danach neu bestückt, als einzelne Information paketiert, im Web publiziert und verlinkt werden. Diese quasi in Atome aufgeteilten Informationspartikel können danach wieder verknüpft und zu «Knowledge Graphs» aufgebaut werden. Durch diese «Knowledge Graphs» können sich sowohl Menschen als auch Computer durchnavigieren, ähnlich wie wir es heute von Webseiten gewohnt sind.

Grundlage ist der W3C-Standard RDF (Resource Description Framework), der Baustein des «Semantic Web», auch bekannt als «Web of Data». Logische Aussagen über beliebige Dinge, sogenannte Ressourcen, können damit formuliert werden.

Jede Aussage besteht aus drei Einheiten (Tripel):

  • Subjekt (eine Quelle, die mit einer URI eindeutig identifiziert werden kann)
  • Prädikat (eine Spezifikation der Beziehung, die ebenfalls eine URI besitzt)
  • Objekt (eine Quelle, mit der das Thema verwandt (URI) ist oder ein Wert)

Das Subjekt und das Objekt stehen also in einer Beziehung, die mit dem Prädikat beschrieben wird. Der Clou ist nun, dass die drei Teile im Web eindeutig über einen Link (URI) verfügbar sind. Die Ausnahme bildet das Objekt, welches auch einfach ein Wert sein kann.

Mit RDF lässt sich somit fast jeder Sachverhalt beschreiben. Es ist klar, dass dafür auch eine geeignete Abfragesprache verwendet werden muss. Bereits 2008 wurde SPARQL vom W3C zum Standard für RDF-Abfragesprachen gemacht. Diese graphenbasierte Abfragesprache erlaubt es uns, das Web der Daten zu durchsuchen und Beziehungen zu entdecken. SPARQL klingt nach einer komplett neuen Sprache, doch wer SQL beherrscht, wird sich leicht mit SPARQL vertraut machen.

Anwendungsbeispiele

Die einleitende Frage lässt sich dank LOSD mit einem Query (Abfrage mit SPARQL) beantworten. Man erhält eine Zeitreihe und sieht auf den ersten Blick die Entwicklung der Bevölkerungszahlen der beiden Städte. Dank der Semantik der Zahl weiss man, ob die Zahlen auf die gleiche Art definiert sind und eine Verknüpfung sinnvoll ist oder nicht.

Heute kann man nach «Wollishofen Zürich» googeln und findet gleich auf der ersten Suchseite die Einwohnerzahl. Diese kommt von Wikipedia, stammt aber aus dem Jahr 2014. Google und weitere Dienste nutzen Wikipedia als Datengrundlage. Die Wikipedia-Einträge werden häufig manuell gepflegt und sind darum nicht immer auf dem neusten Stand. So kann man auch herausfinden, welche Daten fehlen und ob die Daten übereinstimmen. Man könnte zwar eine einfache Schnittstelle bauen und die Daten so Wikipedia zur Verfügung stellen. Doch LOD kann wie erwähnt mehr. Wikipedia nutzt Wikidata als Datenquelle, und genau diese Datenquelle lässt sich dank LOD einfach und automatisch aktualisieren. LOD liefert die Semantik der Zahl mit. Es wird beschrieben, dass diese Zahl eine bestimmte Art der Zählung der Bevölkerung ist.

In Zukunft stehen alle unsere Daten als LOSD zur Verfügung und können wie hier erklärt via Wikidata auf Wikipedia publiziert werden oder für jegliche Art von Applikationen oder Auswertungen benutzt werden. Wir liefern aber nicht nur die nackte Zahl, sondern auch deren Beschreibung durch Metadaten. Somit wird die Zahl immer gleich interpretiert und lässt sich mit Zahlen gleicher Definition vergleichen.

Ausblick

Je mehr Dinge, Ereignisse, Menschen, Orte und natürlich offene Daten im Internet miteinander verbunden sind, desto mächtiger wird der «Knowledge Graph» und damit das «Web of Data». Durch die bessere Zugänglichkeit und die Verknüpfung unterschiedlichster Datenquellen kann neues Wissen aus vorhandenen Fakten einfacher und maschinell unterstützt abgeleitet werden.

Ab Ende August 2018 werden von Statistik Stadt Zürich über 30 Millionen Datentripel im Internet verfügbar, per SPARQL abfragbar und mit anderen Datenquellen verknüpfbar sein. Ende August können die Teilnehmenden der Twist-Hackdays erstmals mit LOSD arbeiten. An zwei Tagen können sie verschiedene Datensätze bearbeiten und die Ergebnisse an den Schweizer Statistiktage 2018 vorstellen.

Aber keine Angst, falls das alles für Sie noch wie «Rocket Science» klingt. Alle unsere wichtigen Daten können Sie wie bisher auf unserer Webseite finden und von dort beziehen. Zudem arbeiten wir an einem «Statistischen Informationsportal», das die gesamte Linked-Data-Sammlung einfach zugänglich und durchsuchbar macht – auch ohne spezielle Programmierkenntnisse.

Weitere Informationen