In der Vorlesung 7 ging es mit dem Thema “Metadaten modellieren und Schnittstellen nutzen” weiter. Wir befassten uns hauptsächlich mit OpenRefine, der Bearbeitung von Tabellendaten und den Export dieser Daten.


Wichtige Begriffe

OpenRefine

“A free, open source, powerful tool for working with messy data” (Quelle: OpenRefine).

CSV

CSV steht für Comma-seperated values. In CSV-Dateien können Tabellen oder Listen abgebildet werden (Quelle: Wikipedia).


OpenRefine

Heute arbeiteten wir mit Tabellendaten. Es ging darum, mittels der Software OpenRefine Daten zu bereinigen und MARC21-XML-Daten daraus zu generieren. In vielen Bibliotheken und Archiven fallen Tabellendaten an. Ich selbst konnte das bei einem Kurzpraktikum in einem Stadtarchiv miterleben, welches den gesamten Bestand in Excel-Tabellen verwaltete. Was aber nun, wenn die Daten aus den Tabellen in einen Katalog überführt werden sollen? Dieses Szenario stellten wir heute nach.

Transformation von Metadaten mit OpenRefine

OpenRefine ähnelt Tabellenverarbeitungssoftwares wie Excel, ist aber gut erweiterbar. OpenRefine dient der Analyse, Bereinigung, Konvertierung und Anreicherung von Daten. Wir legten den Fokus auf die Bereinigung, die Konvertierung und den Export von Daten. Dazu musste die Software aber zuerst installiert werden, was bei mir dank der guten Anleitung funktionierte. Wir erhielten darauf einen Input zu OpenRefine und importierten Beispieldaten in die Software (neues Projekt). Damit führten wir einige Übungen zu Facetten durch. Beispielsweise wandten wir eine Text facet auf die Spalte Language an (Bild 1, Quelle: Open Refine). Dadurch wurden alle Werte der Spalte “Language” ausgewertet und aufgelistet (Bild 2). Da “EN” und “Englisch” dieselbe Sprache repräsentieren und das Ziel konsistente Daten sind, vereinheitlichten wir die Darstellung, indem wir alle Spalten mit “English” in “EN” umwandelten (Bild 3). In den Spalten, die keine Sprachangabe enthielten (15), waren alles englische Texte aufgelistet, die wir ebenfalls “EN” zuordneten.

image

Sehr spannend fand ich die Funktion zur Vereinheitlichung von Namen. Wir wendeten dazu eine Facette auf die Autorenspalte an, damit alle Autoren aufgelistet werden (siehe Abbildung, Quelle: OpenRefine). Viele Autoren sind unter verschiedenen Namen aufgelistet. Unter dem Button “Cluster” erhält man Vorschläge (anhand mathematischer Algorithmen), welche Namen zusammengehören könnten. Man hat die Möglichkeit diese zu vereinheitlichen.

image

Weiter ging es mit einer Vorführung zur Reconciliation, in der wir Informationen zu Zeitschriften aus einer externen Datenquelle (Wikidata) ergänzten. Dazu musste zuerst der Zeitschriftenname aus dem “Citation” Feld extrahiert werden (Erstellung einer neuen Spalte für den Namen):

image

Der Abgleich mit Wikidata erfolgte in der neuen Spalte über “start reconciling”-> Wikidata:

image

Wir haben für bessere Treffer die Spalte ISSN miteinbezogen. Das Ergebnis konnte direkt überprüft werden:

image

Übung CSV nach MARCXML mit OpenRefine

Im nächsten Teil ging es um die Transformation der Metadaten im Format CSV von Open Refine nach MARC21-XML. Dazu nutzen wir die Funktion Templating Exporter und legten dort eine Vorlage für die Konvertierung an. Den ganzen Vorgang mit den entsprechenden Anpassungen fand ich sehr kompliziert.

image

Schlussendlich konnte ich aber die Daten exportieren und hatte (nach der Validierung) Daten in MARC21-XML vorliegen. Insgesamt finde ich OpenRefine ein sehr spannendes Tool. Ich konnte durch die Übungen bereits vieles Lernen. Die Konvertierung werde ich mir nochmals ansehen müssen.