Tag 8 - Suchmaschinen und Discovery-Systeme

Heute fand bereits die zweitletzte Lerneinheit statt. Wir haben zu Beginn das Thema Metadaten modellieren und Schnittstellen nutzen beendet und anschliessend haben wir uns mit Suchmaschinen und Discovery-Systemen beschäftig. Als krönender Abschluss haben wir alle unsere erstellten Daten aus den verschiedenen Systemen in einer gemeinsamen Suchmaschine zusammengefasst.

Bevor ich zum eigentlichen Inhalt der Vorlesung komme, kurz noch einen Einschub zum Thema Schnittstellen. In den bisherigen Vorlesungen haben wir beim Abfragen von Schnittstellen mit XML gearbeitet. Dies ist das verbreiteste Austauschformat im Bibliothek- und Archivumfeld. Hingegen wird im Webkontext mehr mit JSON-API’s gearbeitet. JSON ist wie XML ein strukturiertes Format, welches jedoch einfacher in seiner Struktur ist als XML. Es gibt zum Beispiel keine nach Schema definierten Namen wie in XML. Im Bibliothekskontext gibt es zum Beispiel die JSON lobid-gnd API. Diese kann genutzt werden um eine Autovervollständigung zu programmieren. Es gibt auch eine öffentliche Seite die API’s im Netz darstellt: scrapir. Dieses Tool erlaubt es Daten von bekannten Webseiten zu beziehen und verwendet dazu API’S. Man kann sich hier auch Code Snippets anzeigen lassen, wie man zum Beispiel Suchanfragen formulieren könnte.

Auf die heutige Sitzung hatten wir bereits die Software VuFind installiert und einige Konfigurationen an der Suche und an den Facetten vorgenommen. (siehe vorherigen Blogbeitrag: Übung: Suche und Facetten). VuFind hat sich gegenüber seiner Konkurrenz durchgesetzt und ist weltweit die führende Open Source Software für Discovery-Systeme. Die Suchmaschine die VuFind zu Grund liegt heisst Solr.

Solr ist eine Open-Source-basierte Suchplattform, die eine Vielzahl an Suchfunktionen bereitstellt und gut mit grossen Datenmengen umgehen kann. Solr strukturiert die Daten nach einem Schema. Man muss definieren was für Felder existieren dürfen und welche Datentypen in welchen Felder stehen dürfen. Bei der Suche nach Daten, ist die Effizienz sehr wichtig, je schneller desto besser. Solr hat eine eigene Suchoberfläche, die sich aber nur für interne Zwecke eignet. Man braucht eine separate Suchoberfläche, in unserem Fall VuFind. Die ganze Interaktion zwischen dem Nutzenden und dem Suchindex wird dann von VuFind abgewickelt.

Nach der Theorie haben wir gemeinsam eine Beispielübung gemacht, um zu verstehen was im Hintergrund einer Suche passiert. Wir haben dieselbe Suche einmal in der VuFind Oberfläche durchgeführt und einmal in der Suchoberfläche von Solr. Beide zeigten die gleichen Treffer. Die Unterschiede lagen bei der Aufbereitung der Suchresultate. In Solr wird der ganze Datensatz dargestellt und in VuFind erscheint eine gefilterte Version. Man erkennt deutlich, dass die grafische Oberfläche von VuFind strukturierter und ansprechender gestaltet ist als die von Solr. Die grafische Oberfläche von Solr ist mehr für Administratoren gedacht. Weiter fällt die abweichende Query Time auf. Solr ist schneller als VuFind, weil VuFind erst den Solr abfragt und anschliessend noch die Aufarbeitung der Ergebnisse stattfindet.

Abschliessend haben wir eine Übung zur Datenintegration gemacht. Ziel der Übung war es, die mit MarcEdit und OpenRefine konvertierten Daten aus Koha, ArchivesSpace, Dspace und DOAJ in VuFind zu importieren. So sollte ein übergreifender Katalog für unsere Daten entstehen. Bei vielen Daten hat der Import problemlos funktioniert und bei einigen nicht. Dies haben uns die Dozenten bereits vor der Übung angekündigt. Für einen erfolgreichen Import braucht VuFind zwingend einen eindeutigen Identifier. Ist das ID-Feld leer, schlägt der Import fehl. Für die ID wird von VuFind das controllfield mit dem Tag 001 importiert. Dieses war bei den fehlerhaften Datensätzen nicht vorhanden. Als Lösung könnte beispielsweise das XML manuell mit einer ID ergänzt werden.

Es war sehr spannend heute mal einen Einblick hinter die Kulissen von Suchsystemen zu erhalten. Mit der heutigen Sitzung sind wir am Ende unseres Schaubilds angelangt. Kurz gesagt, haben wir aus vier verschiedenen Quellen (Koha, ArchivesSpace, DSpace und DOAJ), Daten über die unten aufgezeigten Schnittstellen und mit Hilfe von Konvertierungen in ein Discovery-System importiert (von links nach rechts).

schaubild