Learning to Rank & Maschinelles Lernen bei der Suche

Die meisten Unternehmen kennen den Wert einer reibungslosen Benutzererfahrung auf ihrer Website. Aber was ist mit der Suche vor Ort? Ein altes Suchfeld in der oberen rechten Ecke reicht nicht mehr aus. Und eine schlechte Website-Suche kann sich negativ auf Ihre Online-Präsenz auswirken:

79% der Leute, denen nicht gefällt, was sie finden, werden das Schiff verlassen und eine andere Website suchen (Google).
15 % der Marken setzen Ressourcen für die Optimierung ihrer Website-Suchfunktion ein (Econsultancy).
30 % der Besucher wollen die Suchfunktion einer Website nutzen – und wenn sie das tun, ist die Wahrscheinlichkeit, dass sie konvertieren, doppelt so hoch (Moz).

Dies gilt sogar noch mehr für die Suchanwendungen innerhalb eines Unternehmens, wie z.B. Unternehmenssuche, Rechercheportale und Wissensmanagementsysteme. Viele Teams konzentrieren sich darauf, das Benutzererlebnis zu verbessern: die Benutzerinteraktionen und die Farbpalette. Aber was ist mit der Qualität der Ergebnisse der Suchplattform selbst?

Iterationen mit maschinellem Lernen automatisieren

Intelligente Suchteams iterieren ihre Algorithmen, um die Relevanz und das Ranking kontinuierlich zu verfeinern und zu verbessern. Aber was wäre, wenn Sie diesen Prozess mit maschinellem Lernen automatisieren könnten? Es gibt viele Methoden und Techniken, auf die Entwickler zurückgreifen, wenn sie ständig nach der besten Relevanz und dem besten Ranking suchen.

Es gibt verschiedene Ansätze und Methoden, um diese Kunst zu verfeinern. Ein beliebter Ansatz wird Learning-to-Rank oder LTR genannt.

Maschinelles Lernen

LTR ist eine leistungsstarke Technik des maschinellen Lernens, die überwachtes maschinelles Lernen verwendet, um das Modell zu trainieren, eine „relative Reihenfolge“ zu finden. „Überwacht“ bedeutet, dass Menschen die Ergebnisse für jede Abfrage im Trainingsdatensatz manuell abstimmen und diese Datenprobe verwenden, um dem System beizubringen, einen neuen Satz von Ergebnissen neu zu ordnen.

Beliebte Suchmaschinen haben damit begonnen, diese Funktionalität in ihren Funktionsumfang aufzunehmen, so dass Entwickler diesen leistungsstarken Algorithmus für ihre Suchtechnologie und Discovery-Anwendungen nutzen können.

Da die diesjährige Activate erstmals einen stärkeren Fokus auf die Suche und KI-gestützte und verwandte Technologien für maschinelles Lernen legt, gibt es zwei Sitzungen, die sich speziell auf die Verwendung von LTR mit Apache Solr-Implementierungen konzentrieren. Damit Sie das Beste aus diesen beiden Sitzungen herausholen können, haben wir eine Einführung in LTR zusammengestellt, damit Sie und Ihre Kollegen in Montreal bereit sind zu lernen.

Doch zunächst einige Hintergrundinformationen.

Wie sich LTR von anderen ML-Techniken unterscheidet

Learning to Rank (LTR) unterscheidet sich von herkömmlichen Lösungen für maschinelles Lernen, die sich im Allgemeinen auf die Vorhersage bestimmter Instanzen oder Ereignisse konzentrieren und binäre Ja/Nein-Entscheidungen oder numerische Punktzahlen erzeugen. Typische Anwendungen sind die Erkennung von Betrug, die Filterung von E-Mail-Spam oder die Identifizierung von Anomalien. Andererseits geht LTR über die Konzentration auf ein einzelnes Element hinaus und analysiert und bewertet eine Reihe von Elementen auf der Grundlage optimaler Relevanz.

Beide beinhalten eine Bewertung, aber bei LTR liegt der Schwerpunkt auf der endgültigen Reihenfolge und dem Ranking der Artikel und nicht auf der tatsächlichen numerischen Bewertung der einzelnen Artikel. Bei LTR lernt das System anhand eines Modells oder einer „Grundwahrheit“ – einem idealen Satz von gerankten Daten, die von Fachexperten kuratiert oder aus dem Nutzerverhalten wie Klicks, Ansichten oder Likes aggregiert wurden. Dieser Ansatz ist ausschlaggebend für ein präzises akademisches oder wissenschaftliches Datenranking und macht LTR zu einem leistungsstarken Tool zur Verbesserung der Relevanz der Website-Suche und der Benutzerzufriedenheit.

Wie LTR weiß, wie man Dinge einordnet

Der LTR-Ansatz erfordert ein Modell oder ein Beispiel dafür, wie Artikel idealerweise eingestuft werden sollten. Dabei handelt es sich oft um eine Reihe von Ergebnissen, die manuell von Fachexperten kuratiert wurden (auch hier: überwachtes Lernen). Dies beruht auf gut beschrifteten Trainingsdaten und natürlich auf menschlichen Experten.

Der ideale Satz von bewerteten Daten wird als „Grundwahrheit“ bezeichnet und wird zu dem Datensatz, auf dem das System „trainiert“, um zu lernen, wie es am besten automatisch bewerten kann. Diese Methode ist ideal für präzise akademische oder wissenschaftliche Daten.

Eine zweite Möglichkeit, einen idealen Trainingsdatensatz zu erstellen, besteht darin, das Nutzerverhalten wie Likes, Klicks, Ansichten oder andere Signale zu aggregieren. Dies ist ein weitaus skalierbarerer und effizienterer Ansatz.

LTR mit Apache Solr

Mit Version 6.4 hat Apache Solr LTR als Teil seiner Bibliotheken und API-Bausteine eingeführt. Aber die Referenzdokumentation ist vielleicht nur für erfahrene Suchingenieure sinnvoll.

79% der Menschen, denen nicht gefällt, was sie finden, wechseln das Schiff und suchen nach einer anderen Website – Google.

Die LTR-Komponente von Solr trainiert keine Modelle – es bleibt Ihrem Team überlassen, eine Modell-Trainings-Pipeline von Grund auf aufzubauen. Außerdem ist es nicht ganz einfach, herauszufinden, wie all diese Teile zu einer durchgängigen LTR-Lösung zusammengefügt werden können, wenn Sie sich noch nie damit beschäftigt haben.

Wenden wir uns also an die Experten.

Live-Fallstudie: Bloomberg

Der Finanzdienstleistungsriese Bloomberg betreibt eine der weltweit größten Solr-Implementierungen und ist ständig auf der Suche nach Möglichkeiten, die Relevanz zu erhöhen und zu optimieren und gleichzeitig die sekundenschnelle Beantwortung von Abfragen für Millionen von Finanzfachleuten und Anlegern zu gewährleisten.

In seinem Bestreben, das Ergebnis-Ranking und die Benutzerfreundlichkeit kontinuierlich zu verbessern, wandte sich Bloomberg an LTR und entwickelte, baute, testete und übertrug die LTR-Komponente in die Solr-Codebasis.

Diese Ingenieure von Bloomberg standen im Oktober 2018 auf der Activate-Konferenz in Montreal auf der Bühne, um über LTR zu sprechen. Sie sprachen über ihre Architektur und die Herausforderungen bei der Skalierung und darüber, wie sie ein Plugin entwickelt haben, das Apache Solr zur ersten Open-Source-Suchtechnologie gemacht hat, die LTR-Operationen von Haus aus durchführen kann.

Das Team erzählte, wie Bloombergs Echtzeit-Nachrichtensuchmaschine mit niedriger Latenzzeit auf LTR trainiert wurde, wie Ihr Team es tun kann und welche Möglichkeiten es gibt, es nicht zu tun. Hier ist das Video:

Live-Demo: Praktisches End-to-End Learning to Rank mit Fusion

Ebenfalls auf der Activate 2018 präsentierte Andy Liu, Senior Data Engineer bei Lucidworks, eine dreiteilige Demonstration zum Einrichten, Konfigurieren und Trainieren eines einfachen LTR-Modells mit Fusion und Solr.

Liu demonstrierte, wie man komplexere Merkmale einbeziehen und die Modellgenauigkeit in einem iterativen Arbeitsablauf verbessern kann, der für die Datenwissenschaft typisch ist. Besonderes Augenmerk wurde auf bewährte Praktiken bei der Nutzung von zeitkritischen, nutzergenerierten Signalen gelegt.

15% der Marken setzen Ressourcen ein, um die Suche auf ihrer Website zu optimieren – Econsultancy.

Die Sitzung untersuchte einige der Kompromisse zwischen Technik und Datenwissenschaft sowie Solr-Abfrage-/Indizierungsstrategien (Sidecar-Indizes, Payloads), um ein Modell einzusetzen, das sowohl produktionsreif als auch präzise ist. Hier ist das Video:

So, das war ein kurzer Überblick über LTR in der Zusammenfassung und wo Sie es in Aktion sehen können, mit einer realen Fallstudie und einer praktischen Demo, um es selbst zu implementieren. Hier finden Sie noch mehr Lektüre, um sicherzustellen, dass Sie das Beste aus diesem Bereich herausholen.

Weitere LTR-Ressourcen

Bloombergs Blick hinter die Kulissen, wie sie das LTR-Plugin entwickelt und in die Apache Solr-Codebasis eingebracht haben

Unser ebook Learning to Rank with Lucidworks Fusion über die Grundlagen des LTR-Ansatzes und wie Sie dessen Leistungsfähigkeit mit unserer Fusion-Plattform nutzen können. Das begleitende Webinar und unser Blogbeitrag Das ABC der LTR.

Eine intuitive Erklärung von Learning to Rank von Google-Ingenieur Nikhil Dandekar, die mehrere beliebte LTR-Ansätze, einschließlich RankNet, LambdaRank und LambdaMART, detailliert beschreibt.

Punktweises vs. paarweises vs. listenweises Lernen zum Ranking auch von Dandekar

Ein praktisches Beispiel für Learning to Rank für Flugrouten von Skyscanner-App-Entwickler Neil Lathia

Learning to Rank 101 von Pere Urbon-Bayes, eine weitere Einführung/Übersicht über LTR, einschließlich der Implementierung des Ansatzes in Elasticsearch