Wie CareerBuilder semantische und mehrsprachige Strategien mit Apache Lucene/Solr umsetzt

Drei wichtige Suchstrategien für den Einsatz von mehrsprachigen Suchanwendungen.

Während der Countdown für die jährliche Lucene/Solr Revolution Konferenz in Austin im Oktober läuft, stellen wir Ihnen Vorträge und Sitzungen aus vergangenen Konferenzen vor. Heute stellen wir Ihnen Trey Graingers Vortrag über die mehrsprachige Suche bei CareerBuilder vor.

Bei der Textsuche ist die Auswahl der richtigen CharFilter, Tokenizer, Stemmers und anderer TokenFilter für jede unterstützte Sprache entscheidend. Zu den zusätzlichen Werkzeugen gehören die Spracherkennung durch UpdateRequestProcessors, die Analyse von Wortteilen, die Extraktion von Entitäten, Stoppwörter- und Synonymlisten, die Relevanzunterscheidung für exakte vs. gestammte vs. konzeptionelle Übereinstimmungen und die Identifizierung statistisch interessanter Phrasen pro Sprache. Für die mehrsprachige Suche müssen Sie außerdem zwischen verschiedenen Strategien wählen, wie z.B.

1) Suche über mehrere Felder,

2) mit einer separaten Sammlung pro Sprachkombination, oder

3) Kombinieren mehrerer Sprachen in einem einzigen Feld (hierfür ist benutzerdefinierter Code erforderlich, der als Open Source verfügbar sein wird)

jede mit ihren eigenen Stärken und Schwächen, abhängig von Ihrem Anwendungsfall. Dieser Vortrag bietet eine Anleitung (mit Codebeispielen), wie Sie jede dieser Strategien umsetzen können. Außerdem werden wir die verschiedenen Arten von Stemmern vergleichen und gegenüberstellen, die Auswirkungen von Stemming im Vergleich zur Lemmatisierung auf die Genauigkeit und den Wiedererkennungswert diskutieren und einige Techniken zur Extraktion sinnvoller Beziehungen zwischen Begriffen beschreiben, um eine semantische Suche pro Sprache zu ermöglichen. Lernen Sie, wie Sie mit den besten Tools und Techniken, die Lucene/Solr zu bieten hat, ein hervorragendes semantisches und mehrsprachiges Suchsystem aufbauen können!

Trey Grainger ist Director of Engineering for Search & Analytics bei CareerBuilder.com und Co-Autor von Solr in Action (2014, Manning Publications), dem umfassenden, an Beispielen orientierten Handbuch zu Apache Solr. Seine Erfahrung im Bereich Suche umfasst den Umgang mit mehrsprachigen Inhalten in Dutzenden von Märkten/Sprachen, maschinelles Lernen, semantische Suche, Big-Data-Analytik, maßgeschneiderte Lucene/Solr-Bewertungsmodelle, Data Mining und Empfehlungssysteme. Trey ist außerdem der Gründer von Celiaccess.com, einer glutenfreien Suchmaschine, und ein häufiger Redner auf Lucene- und Solr-Konferenzen.

http://www.slideshare.net/lucidworks/semantic-multilingual-strategies-in-lucenesolr-presented-by-trey-grainger

lucenerevolution-avatarMitmachen auf der Lucene/Solr Revolution 2015, der größten Open-Source-Konferenz zum Thema Apache Lucene/Solr vom 13. bis 16. Oktober 2015 in Austin, Texas. Treffen Sie sich mit den Vordenkern, die die Open-Source-Suchtechnologie Lucene/Solr entwickeln und einsetzen, und vernetzen Sie sich mit ihnen. Vollständige Details und Anmeldung…

You Might Also Like

B2B-KI-Benchmarkstudie 2025: Was wir in den Schützengräben sehen

Laden Sie die B2B-KI-Benchmark-Highlights 2025 von Lucidworks herunter. Sehen Sie sich die...

Read More

Vom Suchunternehmen zum praktischen KI-Pionier: Unsere Vision für 2025 und darüber hinaus

CEO Mike Sinoway gibt Einblicke in die Zukunft der KI und stellt...

Read More

Wenn KI schief geht: Fehlschläge in der realen Welt und wie man sie vermeidet

Lassen Sie nicht zu, dass Ihr KI-Chatbot einen 50.000 Dollar teuren Tahoe...

Read More

Quick Links