Bessere Suchergebnisse durch automatische Synonym-Erkennung
Die besten Sucherlebnisse haben das Gefühl, Ihnen einen Schritt voraus zu sein. Wenn Sie bei Ihrem Lieblingsbekleidungshändler „Shorts“ in das…
Die besten Sucherlebnisse haben das Gefühl, Ihnen einen Schritt voraus zu sein. Wenn Sie bei Ihrem Lieblingsbekleidungshändler „Shorts“ in das Suchfeld eingeben, erhalten Sie eine Seite mit den kurzen Hosen, nach denen Sie gesucht haben, ohne dass Sie kurzärmelige Hemden oder kurze Röcke oder, irgendwie, Skorts sehen.
Für diese nahtlose Interaktionist ein System erforderlich, das teils Hellseher, teils Übersetzer ist. Denn die Wörter, die die Benutzer in die Suchleiste eingeben, spiegeln nicht immer das wider, wonach sie suchen. Sie können voller Zweideutigkeit sein: Bedeutet ein „heißes Kleid“ eines, das sexy ist? Oder eines, das beliebt ist? Oder eines, das man im Sommer tragen kann? Vage oder unvollständige Anfragen gibt es zuhauf, und obwohl Tippfehler in der Regel in den Griff zu bekommen sind, werden Sie überrascht sein, wie viele Möglichkeiten es gibt, „Matratze“ falsch zu schreiben.
Diese verpassten Verbindungen mögen trivial erscheinen, aber sie stellen eine erhebliche Gefahr für Ihr Unternehmen dar. Besucher, die eine Vor-Ort-Suche verwendet haben, haben 1,8 Mal besser als der Branchendurchschnitt, so ein Bericht von eConsultancy. In der gleichen Studie waren die Besucher, die die Suche nutzten, für 13,8 Prozent der Einnahmen der untersuchten Websites verantwortlich.
Aber wenn Menschen auf der ersten Seite der Suchergebnisse nicht sehen, was sie suchen (oder, noch schlimmer, die Meldung „Ihre Suche ergab keine Ergebnisse“ erhalten), nehmen sie sich nicht die Zeit, ihre Rechtschreibung zu überprüfen, ein anderes Wort zu versuchen oder die Ergebnisse mit einem Filter einzugrenzen. Sie gehen einfach weg, selbst wenn Ihre Website das bietet, wonach sie suchen.
„Wenn es keine guten Suchergebnisse gibt, wird der Durchschnittsnutzer einfach denken, dass Sie nicht das haben, was er sucht, und woanders hingehen“, sagte Lauryn Smitheine leitende Forscherin für Benutzererfahrung am Baymard Institut.
Smith verwies auf einen von Baymards Berichten, aus dem hervorging, dass fast ein Drittel (31 Prozent) der Testpersonen entweder nicht finden konnten, was sie suchten, oder ihre Suche abbrachen. Und in fast zwei von drei Fällen (65 Prozent) brauchten die Probanden mehr als einen Versuch, um zu finden, was sie suchten.
Es gibt unzählige Möglichkeiten, wie eine Suche schief gehen kann. Die gute Nachricht ist, dass es eine Lösung gibt, die fast alle diese Fehler abfängt. Ein System, das automatisch Synonyme erkennt, kann diese mehrdeutigen Suchanfragen in präzise Ergebnisse verwandeln. Und die Suche ist der Schlüssel zum Kundenerlebnis.
Warum Maschinen bessere Synonymlisten erstellen
Es ist möglich, selbst eine Synonymliste zu erstellen. Es gibt viele Quellen, die verwandte Wörter anbieten, und Sie sind wahrscheinlich bereits ein Experte für alle Begriffe rund um Ihr Geschäft. Die gängigste Methode, eine Synonymliste von Hand zu erstellen, besteht darin, sich die Suchbegriffe anzusehen, die Besucher auf Ihrer Website verwenden. Selbst mit einer Liste, die Tausende von Wörtern enthält, können Sie ziemlich gut Rechtschreibfehler abgleichen und Weiterleitungen für verwandte Wörter schreiben, so dass eine Suche nach „Computermonitor“ zu Ergebnissen für „Display“ führt.
All das braucht jedoch Zeit. Und es kann sich als schwierig erweisen, Ihr anfängliches Regelwerk auf dem neuesten Stand zu halten, wenn sich Produktnamen ändern und neue Produkte eingeführt werden. Die Shopper-First Retailing Studie von Salesforce ergab, dass 69 Prozent der Kunden erwarten, dass sie bei jedem Besuch einer Website oder eines Geschäfts neue Waren sehen, und 75 Prozent der Suchanfragen nach Websites verwenden jeden Monat neue Begriffe.
Manuelle Aktualisierungen bedeuten auch eine große Belastung für Ihre Mitarbeiter, die Entscheidungen treffen müssen. Peter Curran, der Präsident und Mitbegründer des E-Commerce-Technologieunternehmens Cirrus10wies in einer jüngsten Q&A-Sitzung mit Lucidworks, wie ein so einfacher Begriff wie „Leopardenmuster“ zu unpassenden Ergebnissen führen kann.
„In den Suchergebnissen einer Website, die ich gezeigt habe … bekomme ich Drucke, wie bei Wandkunst, mit verschiedenen Tierbildern in meinen Suchergebnissen, aber ich bekomme keine Kleidungsstücke mit einem Leopardenmuster, was ich eigentlich wollte“, sagte Curran. „Das fing damit an, dass jemand – wahrscheinlich jemand, der sich auf Heimdekoration konzentriert – entschied, dass das Wort ‚Leopard‘ mit dem Wort ‚Tier‘ gleichzusetzen sei, aber nicht an Stoffe mit Leopardenmuster dachte.“
Das zeigt das Hauptproblem bei der manuellen Aktualisierung auf: Wenn es um Suchergebnisse geht, spielt die Linguistik keine Rolle. Es geht darum, herauszufinden, wonach die Leute tatsächlich suchen. Das erfordert einen Musterabgleich, bei dem uns die Maschinen überlegen sind.
„Das System ist agnostisch, was die Grammatik angeht“, sagt Carlos Valcarcel, ein Senior Solutions Architect bei Lucidworks, der mehr als ein Jahrzehnt mit verschiedenen Suchsystemen gearbeitet hat. „Es kümmert sich nicht darum, was die Wörter bedeuten. Was es interessiert, ist die Absicht der Benutzer.“
WordNet vs. Word2vec
Die meisten Algorithmen zum Abgleich von Synonymen haben zwei gemeinsame Ausgangspunkte. Es gibt WordNet, eine Datenbank mit englischsprachigen Synonymen, die 1985 angelegt wurde. Inzwischen umfasst sie 117.000 Wortgruppen, die nach ihrer Bedeutung gruppiert sind. Es ist eine bemerkenswerte Ressource, aber sie hat in der Welt des elektronischen Handels ihre Schwächen. Sie weiß zum Beispiel, dass „Galaxie“ ein Sternensystem ist, aber sie weiß nicht, dass es sich dabei auch um ein beliebtes Samsung-Handy handelt.
Dann gibt es Word2vecWord2vec ist ein Computermodell, das 2013 von einem Team von Google-Forschern unter der Leitung von Tomas Mikolov entwickelt wurde und aus Wörtern einen Vektor (das „vec“ von Word2vec, das eine Gruppe oder Sammlung bedeutet) von verwandten Wörtern erstellt. Word2vec unterscheidet sich von WordNet darin, dass es sich nicht mit Grammatik beschäftigt. Es wandelt Text in eine numerische Form um, die das Modell lesen kann. Durch die Analyse der mathematischen Ähnlichkeiten zwischen diesen Formen lehrt Word2vec einem Computer den Kontext, indem es Wörter hervorhebt, die anderen Wörtern „nahe stehen“.
Das ist ein guter Anfang, aber Word2vec kann bei der Suche nach Produkten versagen, weil die Wortpaare zwar verwandt, aber nicht immer austauschbar sind. Word2vec weiß, dass „König“ und „Königin“ verwandte Wörter sind, aber es weiß nicht, dass jemand, der nach Kingsize-Bettlaken sucht, nicht auch nach Königin-Großes Laken.
Erkennen von Synonymen mit maschinellem Lernen
Um die Probleme von WordNet und Word2vec zu lösen, hat Lucidworks als Teil seiner Plattform einen fünfstufigen Algorithmus zur Erkennung von Synonymen entwickelt.
1. Ähnliche Suchanfragen finden
Anstatt mit einer Reihe vorgegebener Synonyme oder verwandter Wörter zu beginnen, nutzt der Algorithmus das Kundenverhalten als Ausgangspunkt für die Erstellung einer Liste von Synonymen. Was geben die Nutzer in das Suchfeld ein? Und auf welche Links klicken sie in der Liste der Ergebnisse?
Eine Seite erhält zum Beispiel 500 Klicks, wenn sie in den Suchergebnissen für „apple mac charger“ erscheint. Dieselbe Seite erhält auch 200 Klicks, wenn sie in den Suchergebnissen für „mac power“ erscheint. In diesem Fall können Sie davon ausgehen, dass „apple mac charger“ und „mac power“ ähnliche Suchanfragen sind, da sie zu denselben Ergebnissen führen.
2. Vorverarbeitung von Abfragen
In diesem Stadium gibt es einige Bereinigungsschritte, um eine brauchbare Synonymliste zu erstellen. Als erstes erfolgt das Stemming, bei dem verschiedene Formen eines Wortes auf eine gemeinsame Form reduziert werden (Dekonstruktion Verbindung, verbindend, verbunden, und verbinden zu verbinden). Dann gibt es noch das Entfernen von Stoppwörtern, also den häufigsten Wörtern einer Sprache. Durch das Entfernen von Wörtern wie die, ist, auf, die, und auf die Suchleistung beschleunigen.
Dies ist auch der richtige Zeitpunkt, um Rechtschreibfehler zu korrigieren. Es ist besser, sie als unidirektionale Synonyme zu behandeln, statt als bidirektionale. So wird „Matratze“ zu Ergebnissen für „Matratze“ führen, aber nicht umgekehrt. Bevor der Algorithmus zum nächsten Schritt übergeht, wandelt er außerdem alle Mehrwortsätze in etwas um, das er als einzelnes Wort lesen kann, indem er einen Unterstrich zwischen die Wörter setzt. (mac book wird zu mac_book).
3. Synonyme extrahieren
Jetzt ist es an der Zeit, eine Reihe von Synonymen aus den bereinigten Benutzeranfragen herauszuziehen. Der Algorithmus findet sie, indem er nach Wörtern und Phrasen sucht, die vor oder nach demselben Wort vorkommen. Aus den ähnlichen Suchanfragen „Laptop-Ladegerät“ und „Laptop-Strom“ können Sie ableiten, dass „Ladegerät“ und „Strom“ Synonyme sind, da sie beide auf „Laptop“ folgen.
4. Beseitigen Sie das Rauschen mit einem Grafikmodell
In diesem Schritt ist es hilfreich, ein Diagrammmodell zu verwenden, um die Beziehungen zwischen Ihrer Gruppe potenzieller Synonyme näher zu definieren. Ähnliche Begriffe werden auf der Grundlage der Wahrscheinlichkeit, dass sie miteinander verwandt sind, in einem Diagramm gruppiert. Wenn Wörter mit hoher Wahrscheinlichkeit Synonyme sind, werden sie im Diagramm nahe beieinander angezeigt. Und wir wissen, dass sie miteinander verwandt sind, weil sie auf der gleichen Ergebnisseite enden – der erste Schritt in diesem Prozess.
Ein gutes Beispiel wäre „mac“, „apple mac“ und „macbook“. Sie sind nahe genug beieinander, um als Synonyme für die anderen Begriffe betrachtet zu werden. Andererseits würde das Graphenmodell zeigen, dass „LED-Fernseher“ ähnlich ist wie „Fernseher“ und „LCD-Fernseher“ ähnlich ist wie „Fernseher“, aber „LED-Fernseher“ ist nicht ähnlich wie „LCD-Fernseher“.
5. Kategorisieren Sie: Synonym-Paar oder Kontext-Übereinstimmung
Im letzten Schritt sehen Sie sich die Synonymliste an, um echte Synonyme mit Wörtern und Phrasen auszusortieren, die im Kontext zueinander passen. Wenn die Wörter „Ohrstöpsel“ und „Kopfhörer“ häufig vor und nach dem Markennamen „Bose“ vorkommen, können Sie davon ausgehen, dass es sich um Synonyme handelt. Andererseits sind „Spiel“ und „PlayStation“ keine Synonyme, aber sie sind im Kontext verwandt, weil sie immer vor und nach dem Wort „Konsole“ erscheinen.
Wie schneidet Lucidworks im Vergleich ab?
Die Lucidworks-Methode enthält nicht viele ausgefallene Datenmodellierungs- oder Deep Learning-Techniken, aber der schlanke Ansatz liefert Ergebnisse. (Die Lucidworks-Plattform spart sich die Mathematik für die Vorhersage der nächsten Schritte auf).
In einer Präsentation auf der Activate-Konferenz 2018 von Lucidworks verglich Chao Han, VP of Data Science, den Synonym-Erkennungsansatz des Unternehmens mit der Word2vec-Methode anhand des Produktkatalogs eines nationalen Elektronikhändlers. Die Lucidworks-Methode lieferte Synonyme mit einer Genauigkeit von 82 Prozent, während Word2vec auf 32 Prozent kam.
„Die Graph-Methode schlägt derzeit Dinge wie Word2vec und vergleichbare Deep-Learning-Techniken“, sagte Ian Pointer, ein Senior Data Engineer bei Lucidworks. „Es zeigt, dass die traditionellen NLP-Techniken immer noch eine gewisse Leistungsfähigkeit haben.“
Bessere Synonyme gleich bessere Suchergebnisse
Eine gut gestaltete Suche hinterlässt ein Gefühl der Zuversicht und Zufriedenheit, während eine Suche, die einen Haufen irrelevanter Ergebnisse (oder schlimmer noch, gar nichts) liefert, zu Frustration und Zweifeln führt und für Einzelhändler die Gefahr birgt, dass Kunden zu Ihren Konkurrenten weiterziehen.
Eine bessere Erkennung von Synonymen wird immer das Herzstück einer präzisen Suche sein, auch wenn neue Modelle wie die Sprachsuche über Smart Speaker, Armaturenbretter im Auto oder mobile digitale Assistenten immer beliebter werden.
Steve Jobs sagte einmal: „Kunden wissen nicht, was sie wollen, bis wir es ihnen gezeigt haben.“ Und in gewisser Weise ist das die wahre Herausforderung bei der Suche: die Frage herauszufinden, die wirklich gestellt wird.
__________
Mehr über die automatische Synonym-Erkennung
Technischer Tauchgang: Finden Sie heraus, wie Solr Synonyme zur Index- oder Abfragezeit erkennt