Metadaten zwischen den Zeilen lesen: Die Suche nach Geschichten, Personen, Orten und mehr in Fernsehnachrichten

Während wir den Countdown für die jährliche Lucene/Solr Revolution Konferenz in Austin im Oktober dieses Jahres laufen lassen, heben wir Vorträge und Sitzungen von vergangenen Konferenzen hervor. Heute geht es um Kai Chans Experimente an der UC mit der Suche nach Medienmetadaten.

NewsScape der UCLA verfügt über 200.000 Stunden Fernsehnachrichten aus den Vereinigten Staaten und Europa. In den letzten zwei Jahren hat das Projekt eine große Menge an „Metadaten“ generiert: Abgrenzungen von Nachrichtensegmenten, Nachrichtenarten und -themen, Namen, Bildschirmtexte, Bildbeschriftungen usw. Die Einbeziehung dieser Daten in die Suche eröffnet neue Möglichkeiten für die Forschung, das Verständnis und die Visualisierung und hilft bei der Beantwortung von Fragen wie „Wer wurde in welchen Sendungen über die Ukraine-Krise im Mai 2014 interviewt“ und „Welcher Text oder welches Bild wird auf dem Bildschirm angezeigt, während über eine Geschichte berichtet wird“. Die Suche nach Metadaten stellt jedoch eine große Herausforderung dar, denn die Suchmaschine muss nicht nur den Inhalt berücksichtigen, sondern auch dessen Position und Zeit im Verhältnis zu anderen Metadateninstanzen, ob Suchbegriffe in denselben oder in verschiedenen Metadateninstanzen gefunden werden usw. Wir werden beschreiben, wie wir die Metadatensuche mit dem Block-Join von Lucene/Solr und benutzerdefinierten Abfragetypen sowie mit den Positions-Zeit-Daten der Sammlung implementiert haben. Wir werden unsere Arbeit an der Verwendung der Zeit als Entfernungseinheit für die Umkreissuche und das Filtern von Suchergebnissen nach Metadatengrenzen beschreiben. Wir werden auch unsere Metadaten-bewusste, feldübergreifende Implementierung von Auto-Suggest beschreiben.

Kai Chan ist der leitende Programmierer für das NewsScape-Projekt an der University of California, Los Angeles. Er verfügt über umfangreiche Erfahrung in der Programmierung mit Lucene, Solr, Java, PHP und MySQL und war insbesondere an der Entwicklung und Programmierung von Video- und Textsuchmaschinen für das Archiv beteiligt. Weitere Projekte, an denen er gearbeitet hat, sind ClassWeb, Moodle und das Video Annotation Tool. Er hat zahlreiche Präsentationen über seine Arbeit für Dozenten und Forscher an der Universität gehalten sowie Lucene- und Solr-Tutorials für die Öffentlichkeit. Kai hat seinen B.S. und M.S. Abschluss in Informatik an der UCLA gemacht.

http://www.slideshare.net/lucidworks/reading-metadata-between-the-lines-searching-for-stories-people-places-and-more-presented-by-kai-chan-ucla

lucenerevolution-avatarMitmachen auf der Lucene/Solr Revolution 2015, der größten Open-Source-Konferenz zum Thema Apache Lucene/Solr vom 13. bis 16. Oktober 2015 in Austin, Texas. Treffen Sie sich mit den Vordenkern, die die Open-Source-Suchtechnologie Lucene/Solr entwickeln und einsetzen, und tauschen Sie sich mit ihnen aus. Alle Details und Anmeldung…

You Might Also Like

Wie Einzelhändler unser Business Analytics Dashboard zur Umsatzsteigerung nutzen

Entdecken Sie, wie führende Einzelhändler das Business Analytics Dashboard von Lucidworks nutzen,...

Read More

Dritte jährliche KI-Benchmark-Studie 2025: Was wir im B2C-E-Commerce sehen

Laden Sie die B2C-KI-Benchmark-Einblicke 2025 von Lucidworks herunter. Werfen Sie einen Blick...

Read More

B2B-KI-Benchmark-Studie 2025: Was wir in den Schützengräben sehen

Laden Sie die B2B-KI-Benchmark-Highlights 2025 von Lucidworks herunter. Sehen Sie sich die...

Read More

Quick Links