Apache Solr für die mehrsprachige Suche nach Inhalten durch entitätsgesteuerte Suche
Entity-Driven-Suche für mehrsprachige Inhalte und Suche.
Während wir den Countdown für die jährliche Lucene/Solr Revolution Konferenz in Austin im Oktober dieses Jahres herunterzählen, heben wir Vorträge und Sitzungen aus vergangenen Konferenzen hervor. Heute stellen wir Ihnen die Sitzung von Alessandro Benedetti vor, in der es um die Verwendung der entitätsgesteuerten Suche für die Suche nach mehrsprachigen Inhalten geht.
In diesem Vortrag geht es um die Beschreibung der Implementierung einer semantischen Suchmaschine auf der Grundlage von Solr. Die sinnvolle Strukturierung von Inhalten ist entscheidend. Die Verarbeitung natürlicher Sprache und die semantische Anreicherung werden immer wichtiger, um die Qualität der Solr-Suchergebnisse zu verbessern. Unsere Lösung basiert auf drei fortschrittlichen Funktionen:
- Entitätsorientierte Suche – Suche nicht nach Schlüsselwörtern, sondern nach Entitäten (Konzepte in einem bestimmten Bereich)
- Wissensgraphen – Nutzung von Beziehungen zwischen Entitäten: Verknüpfte Datasets (Freebase, DbPedia, Custom …)
- Suchhilfe – Autovervollständigung und Rechtschreibprüfung sind heute gängige Funktionen, aber die Verwendung semantischer Daten macht es möglich, intelligentere Funktionen anzubieten, die die Benutzer dazu bringen, ihre Suchanfragen auf natürliche Weise zu erstellen.
Der Ansatz umfasst Mechanismen zur Verarbeitung unstrukturierter Daten, die in Solr integriert sind, um semantische und mehrsprachige Informationen automatisch zu indizieren. Smart Autocomplete vervollständigt die Abfrage des Benutzers mit Entitätsnamen und Eigenschaften aus dem Wissensgraphen der Domäne. Wenn der Benutzer etwas eingibt, schlägt das System eine Reihe von benannten Entitäten und/oder eine Reihe von Entitätstypen in verschiedenen Sprachen vor. Wenn der Benutzer einen Vorschlag annimmt, passt das System die folgenden Vorschläge dynamisch an und gibt relevante Dokumente zurück. Semantic More Like This findet ähnliche Dokumente wie das Ausgangsdokument, basierend auf dem zugrundeliegenden Wissen in den Dokumenten und nicht auf Token.
Alessandro Benedetti ist ein Suchexperte und leidenschaftlicher Liebhaber semantischer Technologien und arbeitet in der F&E-Abteilung von Zaizi. Seine bevorzugte Arbeit ist die Forschung und Entwicklung in den Bereichen Information Retrieval, NLP und maschinelles Lernen mit einem großen Schwerpunkt auf Datenstrukturen, Algorithmen und Wahrscheinlichkeitstheorie. Alessandro schloss 2009 seinen Master in Informatik mit Auszeichnung ab und arbeitete anschließend 6 Monate an der Universita‘ degli Studi di Roma an seiner Masterarbeit über einen neuen Ansatz zur Verbesserung der semantischen Websuche. Alessandro war 3 Jahre bei Sourcesense als Berater und Entwickler im Bereich Suche und Open Source tätig.
http://www.slideshare.net/lucidworks/multilanguage-content-discovery-through-entity-driven-search-alessandro-benedetti
Mitmachen auf der Lucene/Solr Revolution 2015, der größten Open-Source-Konferenz zum Thema Apache Lucene/Solr vom 13. bis 16. Oktober 2015 in Austin, Texas. Treffen Sie sich mit den Vordenkern, die die Open-Source-Suchtechnologie Lucene/Solr entwickeln und einsetzen, und vernetzen Sie sich mit ihnen. Vollständige Details und Anmeldung…