Bibliothek/Katalog Fallstudie: Europeana – die europäische Kultur online stellen
Fallstudie:
Das übergeordnete Ziel von Europeana, das 2007 von der Europäischen Kommission gegründet wurde, ist die Schaffung einer Online-Umgebung, die auf der reichen Geschichte Europas aufbaut und multikulturelle und mehrsprachige Umgebungen mit technologischen Fortschritten und neuen Geschäftsmodellen kombiniert. Letztendlich wird dies verschiedene Bereiche des kulturellen Erbes – Museen, Bibliotheken, Archive und audiovisuelle Archive – aus ganz Europa zusammenbringen und ein einziges, einheitliches Portal schaffen, um ihre Sammlungen zu präsentieren.
Höhepunkte
- Solr hilft Nutzern bei der Suche nach dem kulturellen Schatz, den sie suchen, indem es Millionen von Objekten aus Tausenden von Jahren in 26 europäischen Sprachen durchsucht.
- Solr bietet ausgefeilte Browsing- und Suchfunktionen zum Auffinden von Gemälden, Fotografien, Objekten, Büchern, Zeitungen, Archivalien, Filmen und Tonaufnahmen, die von europäischen Kulturerbeorganisationen digitalisiert wurden.
- Die Open-Source-Technologie ermöglicht den Beitrag von Hunderten von Kultureinrichtungen, und Hunderte weitere stehen in der Warteschlange.
Einführung
Die Europäische Union ist eine etablierte politische und wirtschaftliche Tatsache, die sich durch ihre enorme kulturelle und sprachliche Vielfalt auszeichnet. Dieser Reichtum beruht auf einer jahrhundertelangen Geschichte, Millionen von Dokumenten und Artefakten, Dutzenden von Sprachen, die in Hunderten von Institutionen verstreut sind. Da weltberühmte Museen – darunter das Rijksmuseum in Amsterdam, die British Library in London und der Louvre in Paris – ihre Sammlungen jetzt digitalisieren, können Sie sich ohne Eurail-Pass, GPS-Gerät oder Reiseführer einen Weg durch Europas kulturelles Erbe bahnen, ein Museum nach dem anderen.
Die Europäische Union hat Europeana als ihre digitale Bibliothek, ihr Museum und ihr Archiv eingerichtet. Diese Sammlung von Sammlungen ist ein einziges, vereinheitlichendes Webportal, das die Benutzer mit Millionen von digitalen Objekten verbindet, darunter Filmmaterial, Fotos, Gemälde, Töne, Karten, Manuskripte, Bücher, Zeitungen und Archivdokumente. Durch die Zusammenführung digitalisierter Sammlungen und Informationen aus Bibliotheken, Museen, Universitäten und anderen nationalen Einrichtungen bietet Europeana einen beispiellosen Online-Zugang zum kulturellen und wissenschaftlichen Erbe Europas. Um eine offene, leistungsstarke Suche zu ermöglichen, hat sich das Europeana-Entwicklungsteam für die Open-Source-SuchplattformSolr entschieden und nutzt deren Fähigkeiten, um Nutzern in allen Mitgliedstaaten – und auf der ganzen Welt – zu helfen, diese umfangreichen Sammlungenüber Zeit und Entfernung hinweg im Internet zu durchsuchen.
Historische Herausforderungen
Es ist eine große Herausforderung, Nutzern aus vielen verschiedenen Kulturen, die viele verschiedene Sprachen verwenden, die Möglichkeit zu geben, das Dokument, die Audio- oder Bildressource zu finden, die sie suchen. Darüber hinaus musste die Suchlösung nachhaltig und erweiterbar sein. Sie sollte nicht nur die Millionen von digitalen Objekten umfassen, die Teil des aktuellen Projekts sind, sondern auch die wesentlich größere Anzahl von Objekten, Nutzern und Mitwirkenden, die noch kommen werden.
Ein Kernteam in der Nationalbibliothek der Niederlande, der Koninklijke Bibliotheek, leitet das Projekt. Nach einem Jahr Planung und Prototyping von Komponenten hatte ein Team von drei Entwicklern nur wenige Wochen Zeit, um den endgültigen Prototyp des Portals zu erstellen und einzusetzen. Sie erstellten eine Organisationspipeline, um alle Metadaten (in 26 Sprachen) aus Dutzenden von Institutionen in ein benutzerdefiniertes, einheitliches Format zu konvertieren, das sie verwalten und kontrollieren konnten. Das Projekt verwendet Solr und die CopyField-Klasse, um die verschiedenen Sprachen in verschiedene Indizes aufzuteilen. Anschließend konfigurierte das Team die Datei schema.xml, um benutzerdefinierte Verarbeitungspipelines für jeden Feldtyp und jede Sprache zu erstellen.
Der Prototyp zeigte, dass das Sammeln von Daten in all den verschiedenen Sprachen und benutzerdefinierten Metadatenformaten eine Normalisierungspipeline erfordert, um alles in ein allgemeines Format zu konvertieren. Die Daten werden zunächst in einer PostgreSQL-Datenbank in einem XML-Format zusammengefasst, das dem Open Archives Initiative – Protocol for Metadata Harvesting (OAI-PMH) entspricht, einem anwendungsunabhängigen Interoperabilitätsrahmen auf der Grundlage des Metadata Harvesting. Die PostgreSQL-Datenbank wird verwendet, um die Artefaktdaten mit Benutzer-Tags, vorgeschlagenen Suchbegriffen und anderen verwandten Elementen zu verknüpfen. Ein Datenbank-zu-Solr-Indexer wandelt das interne Indexformat in das Solr-Format um und bereitet es für die Indizierung vor. Alle Suchvorgänge werden mit Solr durchgeführt.
Das Projekt wurde mit einem Team von drei erfahrenen Entwicklern erstellt. Projektleiter Sjoerd Siebinga, ein Historiker und Computerlinguist, ist auf die sprachübergreifende Suche spezialisiert. Vor einigen Jahren verwendete er Solr als Prototyp, um verschiedene Thesauri abzugleichen und durchsuchbar zu machen. Vor drei Jahren schloss er sich dem Projekt The European Library an, das Europeana als eigenständigen Dienst entwickelte. Die Verwendung von Solr und anderen Open-Source-Tools war ein natürlicher Auswuchs seiner früheren Erfahrungen.
Sjoerd erklärt: „Da wir eine facettenbezogene Artikelsuche durchführen mussten, vorzugsweise mit Autovervollständigung, dachte ich sofort an Solr. Ich wusste, dass ich auf meinem eigenen Entwicklungsrechner mit Solr die Skalierung und das Sharding durchführen konnte, also dachte ich, dass dies der beste Weg sei, um die Anforderungen an Skalierbarkeit und Redundanz zu erfüllen. Außerdem wären die Lizenzkosten für eine Paketlösung zu hoch gewesen.“
Um die Skalierbarkeit von Solr vor Beginn des Projekts zu testen, führte das technische Team einen Benchmark durch. In einer Umgebung mit ausgeglichener Last war Solr in der Lage, 8.000 gleichzeitige Benutzer zu verarbeiten, bevor die Testmaschinen die Last nicht mehr bewältigen konnten. Sjoerd bemerkte: „Ich habe etwa 10 Millionen Objekte in Solr geladen und gesehen, dass es auch nach erheblicher Belastung noch ziemlich schnell war, also haben wir beschlossen, damit weiterzumachen.“
Sjoerd findet, dass Solr sehr einfach zu benutzen ist. „Mit Solr kann man so viele Dinge tun, ohne auch nur einen Hauch von Code zu schreiben. Mir war nicht klar, wie einfach es ist, unsere benutzerdefinierten Anfrage-, Antwortschreiber- und Update-Handler zu erweitern. Verschieben Sie einfach alles zu Solr und lassen Sie es die schwere Arbeit machen. Ich sage anderen Entwicklern: ‚Schauen Sie sich an, wie viel Sie mit Solr umsonst bekommen können! Es gibt nur zwei Konfigurationsdateien, sonst nichts. Lesen Sie sie und Sie können loslegen“, sagte er.
Die Europeana-Website heute
Die aktuelle Europeana-Website ist ein Prototyp, der Links zu vier Millionen digitalen Objekten bietet, die unter anderem in folgende Kategorien eingeteilt sind:
- Bilder: Gemälde, Zeichnungen, Karten, Fotos und Bilder von Museumsobjekten
- Texte: Bücher, Zeitungen, Briefe, Tagebücher und Archivalien
- Klänge: Musik und gesprochenes Wort von Walzen, Kassetten, Schallplatten und Radiosendungen
- Videos: Filme, Wochenschauen und Fernsehsendungen
Die erste Prototyp-Website, www.europeana.eu, ist jetzt mit vier Millionen Artikeln im Archiv und 5.000 gleichzeitigen Benutzern in Betrieb. Sie erhält täglich zwischen 200.000 und einer Million Zugriffe.
Zukünftige Pläne
Die Architekten des Projekts wollen bis Juni 2010 eine Produktionsversion mit 10 Millionen Einträgen bereitstellen, die 20.000 gleichzeitige Verbindungen verarbeiten kann. Es ist jedoch durchaus möglich, dass die Datenbank bis dahin 30 Millionen Einträge enthält, wenn man die Anzahl der Einträge in der Warteschlange und die wachsende Zahl der Aggregatoren, mit denen Europeana zusammenarbeitet, betrachtet. Aggregatoren sammeln Inhalte von zahlreichen Anbietern, homogenisieren die Metadaten und leiten sie direkt an Europeana weiter. Das beste Beispiel ist culture.fr, das Inhalte von 480 französischen Museen und Archiven sammelt und an Europeana liefert.
Die meisten der aktuellen Projekte, die Inhalte zu Europeana beisteuern, sind Domain-Aggregatoren, darunter das European Film Gateway, das Archivportal für Europa, Europeana Connect für Tonmaterial und Athena für Museumssammlungen.
Mit Blick auf die Zukunft sagte Sjoerd: „Wir prüfen ständig, wie die Leute am einfachsten Daten hinzufügen und das Mapping selbst verwalten können, so dass wir uns nicht darum kümmern müssen. Wir testen die Idee, einen Online-Assistenten zu erstellen, mit dem Institutionen Daten hochladen, analysieren, in eine Sandbox gehen und die Suche testen können. Wenn sie damit zufrieden sind, können sie auf ‚Senden‘ klicken. Wir werden sie dann überprüfen und in die Produktion überführen.
Nach dem Start des Europeana-Prototyps besteht die letzte Aufgabe des Projekts darin, ein Geschäftsmodell zu empfehlen, das die Nachhaltigkeit der Website gewährleistet. Das derzeitige XML-basierte Format des Projekts wird in der nächsten Version durch ein RDF-basiertes internes Schema ersetzt, das auf dem Simple Knowledge Organization System (SKOS), einem WC3-Standard, basiert.
Dadurch werden verschiedene Thesauri und Ontologien aufeinander abgestimmt, was kontextbezogene Gruppierungen mit angereicherten Daten und die Einbeziehung tatsächlicher digitaler Objekte, wie Filme und Bilder, ermöglicht. Das Team arbeitet auch daran, die Auffindbarkeit aller Elemente eines kulturellen Artefakts zu erweitern. Mithilfe neuer Metadatenstandards wird die Bearbeitung des einzelnen Artefakts auch in der Lage sein, wichtige Parameter wie den Ort in der Zeit hinzuzufügen. Wenn zum Beispiel eine Abfrage lautet: „Wo befindet sich der Stein von Rosette? Es gibt mehrere Antworten: Der Stein wurde von den Franzosen in Ägypten gefunden, nach Frankreich gebracht und dann nach England gebracht. Alle diese Antworten sind Teil einer vollständigen Geschichte des Steins von Rosette. Darüber hinaus ermöglichen freie Abfragen und mobiles Asset Management mit geografischer Suche den Zugriff auf die Website über ein mobiles Gerät wie z.B. ein Mobiltelefon, die Eingabe des eigenen Standorts und die Ermittlung der historischen Ressourcen in der Nähe.
Eine zentrale Anforderung an das Projekt ist die Nachhaltigkeit und die Verwendung von Open Source, wo immer dies möglich ist. Im September 2009 wird das Projekt selbst als Open Source zur Verfügung gestellt, damit auch kleinere Einrichtungen es implementieren können.
Hardware
Bei diesem hochkarätigen Einsatz ist alles überflüssig.
- 1 Master- und 2 Slave-Rechner, auf denen Solr läuft, jeder mit 8 Kernen und 16 GB RAM
- 2 Rechner, auf denen Image Magic zur Erstellung von Miniaturansichten läuft, jeder mit 8 Kernen und 16 GB RAM
- 2 Datenbank-Maschinen: 1 virtuell, 1 Hardware, mit 32GB RAM
- 4 Portalserver, völlig zustandslos, mit Round-Robin-Lastausgleich
Software
Alles läuft unter Linux und dem Apache Tomcat-Servlet-Container, außer Solr, das in einem Jetty-Servlet-Container läuft.
- Red Hat Enterprise Linux
- Apache Tomcat
- PostgreSQL-Datenbank
- Spring und Hibernate Software wurden zum Schreiben von Anwendungen verwendet