Tag 7 - Metadaten modellieren und Schnittstellen nutzen 2/2

Nach der gestrigen Lerneinheit zum Thema Metadaten modellieren und Schnittstellen nutzen folgte heute bereits die zweite Lerneinheit zu diesem Thema. Heute ging es um die Transformation von Metadaten mit Hilfe von OpenRefine.

OpenRefine ist eine Open Source Anwendung mit einer grafischen Oberfläche zur Analyse, Bereinigung, Konvertierung und Anreicherung von Daten. Die Anwendung wird gemäss einer Umfrage vor allem für die Bereinigung von Daten verwendet. Aber auch für die Exploration von Datenlieferungen oder für den Abgleich von Normdaten in Wikidata oder GND. Folgende Formate lassen sich mit OpenRefine bearbeiten: xls., xlsx., txt., und csv.. OpenRefine wird lokal installiert und kann danach über den Browser bedient werden. Dieses Tool eignet sich vor allem für die Arbeit mit tabellarischen Daten, wie wir sie zum Beispiel aus Excel-Dateien kennen.

Wir haben OpenRefine gemeinsam über das Terminal installiert, was dank der vorbereiteten Befehle unserer Dozenten einwandfrei funktioniert hat. Als erstes haben wir Beispieldaten in OpenRefine erfasst. Uns wurde ein Beispieldatensatz als CSV-Datei zur Verfügung gestellt. Anschliessend haben wir die Grundfunktionen von OpenRefine kennengelernt.

Eine wichtige Hauptfunktion von OpenRefine ist die Filterfunktion mittels Facetten. Mit den Facetten kann man gezielt Daten auswählen und filtern. Dies hilft bei der Aufrechterhaltung der Datenkonsistenz enorm, da direkt über die Facette, die Tabelleninhalte gleichzeitig angepasst werden können. Wenn man sich zum Beispiel die Einträge in der Spalte Language anschaut, sieht man eine Auflistung der vorhandenen Sprachen. Die Werte können nun direkt bearbeitet werden. Wir haben beispielsweise die Bezeichnung «Englisch» in «EN» umgewandelt. So wurden die mit «Englisch» verknüpften Werte automatisch zu den bestehenden «EN»-Werte hinzugezählt.

facetten

Um mehrwertige Zellen zu korrigieren und die Werte auf zwei Zellen zu verteilen braucht man die Funktion «Split multi-valued cells». Um zwei Zellen zu verbinden, braucht man die umgekehrte Funktion «Join multi-valued cells». Eine weitere praktische Funktion ist die Cluster Funktion. Mit Hilfe dieser Funktion werden alle ausgewählten Facetteneintrage verglichen und von Algorithmen geprüft, ob es sich bei verschiedenen Einträgen eventuell um denselben Eintrag handelt.

Die Hauptübung der Lerneinheit war die Transformation der Beispieldaten im CSV-Format in MARCXML. In der gestrigen Lerneinheit haben wir bereits eine ähnliche Übung durchgeführt. Als erstes musste ein sogenanntes Template erstellt werden (eine Art Mapping). Dies wird anders als beim Crosswalk, nicht mittels XSLT, sondern mit der Sprache GREL erstellt. In diesem Template findet man Transformationsregeln wie zum Beispiel, dass mehrere Werte innerhalb einer Zelle auf mehrere Zellen aufgeteilt werden sollen. Anschliessend haben wir die Textdatei (.txt) in eine XML-Datei (.xml) umbenannt, exportiert und validiert.

Die heutige Vorlesung fand ich etwas schwierig und ich musste mir im Nachhinein die Aufzeichnung nochmals anschauen, um die vollzogenen Schritte zu rekapitulieren.