Metadaten zwischen den Zeilen lesen: Die Suche nach Geschichten, Personen, Orten und mehr in Fernsehnachrichten

Während wir den Countdown für die jährliche Lucene/Solr Revolution Konferenz in Austin im Oktober dieses Jahres laufen lassen, heben wir Vorträge und Sitzungen von vergangenen Konferenzen hervor. Heute geht es um Kai Chans Experimente an der UC mit der Suche nach Medienmetadaten.

NewsScape der UCLA verfügt über 200.000 Stunden Fernsehnachrichten aus den Vereinigten Staaten und Europa. In den letzten zwei Jahren hat das Projekt eine große Menge an „Metadaten“ generiert: Abgrenzungen von Nachrichtensegmenten, Nachrichtenarten und -themen, Namen, Bildschirmtexte, Bildbeschriftungen usw. Die Einbeziehung dieser Daten in die Suche eröffnet neue Möglichkeiten für die Forschung, das Verständnis und die Visualisierung und hilft bei der Beantwortung von Fragen wie „Wer wurde in welchen Sendungen über die Ukraine-Krise im Mai 2014 interviewt“ und „Welcher Text oder welches Bild wird auf dem Bildschirm angezeigt, während über eine Geschichte berichtet wird“. Die Suche nach Metadaten stellt jedoch eine große Herausforderung dar, denn die Suchmaschine muss nicht nur den Inhalt berücksichtigen, sondern auch dessen Position und Zeit im Verhältnis zu anderen Metadateninstanzen, ob Suchbegriffe in denselben oder in verschiedenen Metadateninstanzen gefunden werden usw. Wir werden beschreiben, wie wir die Metadatensuche mit dem Block-Join von Lucene/Solr und benutzerdefinierten Abfragetypen sowie mit den Positions-Zeit-Daten der Sammlung implementiert haben. Wir werden unsere Arbeit an der Verwendung der Zeit als Entfernungseinheit für die Umkreissuche und das Filtern von Suchergebnissen nach Metadatengrenzen beschreiben. Wir werden auch unsere Metadaten-bewusste, feldübergreifende Implementierung von Auto-Suggest beschreiben.

Kai Chan ist der leitende Programmierer für das NewsScape-Projekt an der University of California, Los Angeles. Er verfügt über umfangreiche Erfahrung in der Programmierung mit Lucene, Solr, Java, PHP und MySQL und war insbesondere an der Entwicklung und Programmierung von Video- und Textsuchmaschinen für das Archiv beteiligt. Weitere Projekte, an denen er gearbeitet hat, sind ClassWeb, Moodle und das Video Annotation Tool. Er hat zahlreiche Präsentationen über seine Arbeit für Dozenten und Forscher an der Universität gehalten sowie Lucene- und Solr-Tutorials für die Öffentlichkeit. Kai hat seinen B.S. und M.S. Abschluss in Informatik an der UCLA gemacht.

http://www.slideshare.net/lucidworks/reading-metadata-between-the-lines-searching-for-stories-people-places-and-more-presented-by-kai-chan-ucla

lucenerevolution-avatarMitmachen auf der Lucene/Solr Revolution 2015, der größten Open-Source-Konferenz zum Thema Apache Lucene/Solr vom 13. bis 16. Oktober 2015 in Austin, Texas. Treffen Sie sich mit den Vordenkern, die die Open-Source-Suchtechnologie Lucene/Solr entwickeln und einsetzen, und tauschen Sie sich mit ihnen aus. Alle Details und Anmeldung…

Share the knowledge

You Might Also Like

Agentische KI und der Aufstieg von Protokollen: Wohin sich das Ökosystem als nächstes bewegt

m Jahr 2025 bewegen wir uns schnell auf ein neues Paradigma in...

Read More

MCP und Kontextfenster: Warum Protokolle eine größere Rolle spielen als größere LLMs

Im letzten Jahr hat sich das Rennen um die Erweiterung der LLM-Kontextfenster...

Read More

Wie MCP die KI-gestützte Suche und Entdeckung verbessern kann

In der Ära der generativen KI ist die Suche nicht länger ein...

Read More

Quick Links