Wie CareerBuilder semantische und mehrsprachige Strategien mit Apache Lucene/Solr umsetzt
Drei wichtige Suchstrategien für den Einsatz von mehrsprachigen Suchanwendungen.
Während der Countdown für die jährliche Lucene/Solr Revolution Konferenz in Austin im Oktober läuft, stellen wir Ihnen Vorträge und Sitzungen aus vergangenen Konferenzen vor. Heute stellen wir Ihnen Trey Graingers Vortrag über die mehrsprachige Suche bei CareerBuilder vor.
Bei der Textsuche ist die Auswahl der richtigen CharFilter, Tokenizer, Stemmers und anderer TokenFilter für jede unterstützte Sprache entscheidend. Zu den zusätzlichen Werkzeugen gehören die Spracherkennung durch UpdateRequestProcessors, die Analyse von Wortteilen, die Extraktion von Entitäten, Stoppwörter- und Synonymlisten, die Relevanzunterscheidung für exakte vs. gestammte vs. konzeptionelle Übereinstimmungen und die Identifizierung statistisch interessanter Phrasen pro Sprache. Für die mehrsprachige Suche müssen Sie außerdem zwischen verschiedenen Strategien wählen, wie z.B.
1) Suche über mehrere Felder,
2) mit einer separaten Sammlung pro Sprachkombination, oder
3) Kombinieren mehrerer Sprachen in einem einzigen Feld (hierfür ist benutzerdefinierter Code erforderlich, der als Open Source verfügbar sein wird)
jede mit ihren eigenen Stärken und Schwächen, abhängig von Ihrem Anwendungsfall. Dieser Vortrag bietet eine Anleitung (mit Codebeispielen), wie Sie jede dieser Strategien umsetzen können. Außerdem werden wir die verschiedenen Arten von Stemmern vergleichen und gegenüberstellen, die Auswirkungen von Stemming im Vergleich zur Lemmatisierung auf die Genauigkeit und den Wiedererkennungswert diskutieren und einige Techniken zur Extraktion sinnvoller Beziehungen zwischen Begriffen beschreiben, um eine semantische Suche pro Sprache zu ermöglichen. Lernen Sie, wie Sie mit den besten Tools und Techniken, die Lucene/Solr zu bieten hat, ein hervorragendes semantisches und mehrsprachiges Suchsystem aufbauen können!
Trey Grainger ist Director of Engineering for Search & Analytics bei CareerBuilder.com und Co-Autor von Solr in Action (2014, Manning Publications), dem umfassenden, an Beispielen orientierten Handbuch zu Apache Solr. Seine Erfahrung im Bereich Suche umfasst den Umgang mit mehrsprachigen Inhalten in Dutzenden von Märkten/Sprachen, maschinelles Lernen, semantische Suche, Big-Data-Analytik, maßgeschneiderte Lucene/Solr-Bewertungsmodelle, Data Mining und Empfehlungssysteme. Trey ist außerdem der Gründer von Celiaccess.com, einer glutenfreien Suchmaschine, und ein häufiger Redner auf Lucene- und Solr-Konferenzen.
http://www.slideshare.net/lucidworks/semantic-multilingual-strategies-in-lucenesolr-presented-by-trey-grainger
Mitmachen auf der Lucene/Solr Revolution 2015, der größten Open-Source-Konferenz zum Thema Apache Lucene/Solr vom 13. bis 16. Oktober 2015 in Austin, Texas. Treffen Sie sich mit den Vordenkern, die die Open-Source-Suchtechnologie Lucene/Solr entwickeln und einsetzen, und vernetzen Sie sich mit ihnen. Vollständige Details und Anmeldung…