Metadaten zwischen den Zeilen lesen: Die Suche nach Geschichten, Personen, Orten und mehr in Fernsehnachrichten

Während wir den Countdown für die jährliche Lucene/Solr Revolution Konferenz in Austin im Oktober dieses Jahres laufen lassen, heben wir Vorträge und Sitzungen von vergangenen Konferenzen hervor. Heute geht es um Kai Chans Experimente an der UC mit der Suche nach Medienmetadaten.

NewsScape der UCLA verfügt über 200.000 Stunden Fernsehnachrichten aus den Vereinigten Staaten und Europa. In den letzten zwei Jahren hat das Projekt eine große Menge an „Metadaten“ generiert: Abgrenzungen von Nachrichtensegmenten, Nachrichtenarten und -themen, Namen, Bildschirmtexte, Bildbeschriftungen usw. Die Einbeziehung dieser Daten in die Suche eröffnet neue Möglichkeiten für die Forschung, das Verständnis und die Visualisierung und hilft bei der Beantwortung von Fragen wie „Wer wurde in welchen Sendungen über die Ukraine-Krise im Mai 2014 interviewt“ und „Welcher Text oder welches Bild wird auf dem Bildschirm angezeigt, während über eine Geschichte berichtet wird“. Die Suche nach Metadaten stellt jedoch eine große Herausforderung dar, denn die Suchmaschine muss nicht nur den Inhalt berücksichtigen, sondern auch dessen Position und Zeit im Verhältnis zu anderen Metadateninstanzen, ob Suchbegriffe in denselben oder in verschiedenen Metadateninstanzen gefunden werden usw. Wir werden beschreiben, wie wir die Metadatensuche mit dem Block-Join von Lucene/Solr und benutzerdefinierten Abfragetypen sowie mit den Positions-Zeit-Daten der Sammlung implementiert haben. Wir werden unsere Arbeit an der Verwendung der Zeit als Entfernungseinheit für die Umkreissuche und das Filtern von Suchergebnissen nach Metadatengrenzen beschreiben. Wir werden auch unsere Metadaten-bewusste, feldübergreifende Implementierung von Auto-Suggest beschreiben.

Kai Chan ist der leitende Programmierer für das NewsScape-Projekt an der University of California, Los Angeles. Er verfügt über umfangreiche Erfahrung in der Programmierung mit Lucene, Solr, Java, PHP und MySQL und war insbesondere an der Entwicklung und Programmierung von Video- und Textsuchmaschinen für das Archiv beteiligt. Weitere Projekte, an denen er gearbeitet hat, sind ClassWeb, Moodle und das Video Annotation Tool. Er hat zahlreiche Präsentationen über seine Arbeit für Dozenten und Forscher an der Universität gehalten sowie Lucene- und Solr-Tutorials für die Öffentlichkeit. Kai hat seinen B.S. und M.S. Abschluss in Informatik an der UCLA gemacht.

http://www.slideshare.net/lucidworks/reading-metadata-between-the-lines-searching-for-stories-people-places-and-more-presented-by-kai-chan-ucla

lucenerevolution-avatar Mitmachen auf der Lucene/Solr Revolution 2015, der größten Open-Source-Konferenz zum Thema Apache Lucene/Solr vom 13. bis 16. Oktober 2015 in Austin, Texas. Treffen Sie sich mit den Vordenkern, die die Open-Source-Suchtechnologie Lucene/Solr entwickeln und einsetzen, und tauschen Sie sich mit ihnen aus. Alle Details und Anmeldung…

Share the knowledge

Die Geschichte von Cyber 5 2025 dreht sich um Veränderung: Mobile und KI-gestützte natürlichsprachliche Suche definieren das Weihnachtsgeschäft neu

Der Zeitraum vom Black Friday bis zum Cyber Monday gibt Aufschluss darüber,...

Einführung von Lucidworks Dynamic Index

Lucidworks Dynamic Index™ ist eine Personalisierungs-Engine zur Abfragezeit, die jedem Kunden sofort...

Lucidworks zum Leader ernannt: Was das für die Suche, KI und Ihr Unternehmen bedeutet

Die Anerkennung von Lucidworks als Leader signalisiert, dass Unternehmenssuche und KI heute...

Metadaten zwischen den Zeilen lesen: Die Suche nach Geschichten, Personen, Orten und mehr in Fernsehnachrichten

You Might Also Like

Die Geschichte von Cyber 5 2025 dreht sich um Veränderung: Mobile und KI-gestützte natürlichsprachliche Suche definieren das Weihnachtsgeschäft neu

Einführung von Lucidworks Dynamic Index

Lucidworks zum Leader ernannt: Was das für die Suche, KI und Ihr Unternehmen bedeutet