3 häufige Datenherausforderungen, die das Sucherlebnis Ihrer Kunden beeinträchtigen

In einem kürzlich erschienenen Beitrag hat Marie Griffin die Fähigkeit der KI-gestützten Suche erörtert, das Kundenerlebnis zu verbessern, die Loyalität zu stärken und den Kauf zu steigern. Und obwohl es keinen Zweifel daran gibt, dass die intelligente Suche all dies leisten kann, können die Eigenschaften der Produktdaten den Weg zum Erfolg erschweren.

Künstliche Intelligenz (KI) braucht Daten, um zu lernen, und egal wie groß ein Datensatz ist, KI wird versagen, wenn die Datenqualität schlecht ist. Daten weisen oft strukturelle Probleme auf, wie z.B. Tippfehler, unregelmäßige Großschreibung und mehrere Bezeichnungen für dieselbe Art von Daten. Sie können auch in unterschiedlichen Formaten vorliegen, inkonsistent sein, Ausreißer enthalten und ablenken.

Kavita Ganesan, Senior Data Scientist bei Github, erklärt, wie solche Datenprobleme Unternehmen davon abhalten, KI-gestützte Lösungen einzuführen: „Ob es sich nun um beschriftete oder unbeschriftete Daten oder um Suchprotokolle handelt, Unternehmen müssen ohne weiteres über einen guten Datenspeicher verfügen, damit Datenwissenschaftler ihn erkunden und Modelle erstellen können. Die Erstellung eines hochgradig zugänglichen Datenspeichers ist eine große Investition und erfordert viel Zeit für das Data Engineering, um die Dinge zu realisieren.

Wir haben die drei häufigsten Datenszenarien aufgelistet, die das Datentraining stören – und was Sie tun müssen, um sie zu beheben.

1. Unübersichtliche Daten erschweren die Suche nach dem, was Sie brauchen

Lösung: Indizierungs-Pipeline, Regex-Ersatz-Filterung und Skripting können helfen.

In einer idealen Welt sind Ihre Daten gut organisiert, leicht zu sortieren und einfach zu verstehen. Leider müssen Sie mit den Daten umgehen, mit denen Sie konfrontiert werden. Aber es gibt Möglichkeiten, unordentliche Daten geschickt zu bereinigen und zu massieren, um die Auffindbarkeit und Klassifizierung zu verbessern und dem Benutzer oder Kunden die Möglichkeit zu geben, einfach auf der Website zu navigieren und das zu finden, was er sucht.

Zu den grundlegenden Hausmeistertätigkeiten gehört das Normalisieren von Werten. Ein Beispiel: Sie haben ein Feld „Farbe“ mit den Werten „Blau“ und „blau“. Ein einfacher Großbuchstaben-Normalisierer würde alle bLuE-Werte in nur Blau umwandeln. Anhand dieses nicht zu weit hergeholten Beispiels sehen die Facetten vor und nach der Datenbereinigung wie folgt aus, wobei `clean_color` als neues Feld verwendet wird, um sie gegenüberstellen zu können:

wordpress 2 data 01 1

Während der Indizierung wurde das kleine Stückchen Code unten hinzugefügt, um die Farben groß zu schreiben. In der Index Workbench (IBW) von Fusion wird dies interaktiv durchgeführt. Durch Ausprobieren werden diese Dinge schnell erledigt:

middle code 01

Der Prozess der Datenaufnahme und -veredelung erfordert mehrere Iterationen, um ihn auszubügeln, und in vielen Fällen ist es ein ständiges Bemühen, neue Datensätze einzubringen und zu verfeinern, um sie effektiv für Abfragen nutzen zu können. IBW ermöglicht eine schnelle visuelle Iteration der Datenquellen- und Parserkonfigurationen und der Indexpipeline.

Selbst in den minimalsten Produktdaten sind oft wichtige Metadaten enthalten. Eine grobe Beschreibung wie „Dies ist ein blaues iPod-Armband“ und einige grundlegende Querverweise auf die Domänen-Terminologie lassen sich problemlos als solche erfassen:

ipod data wp 01 e1556742329325

Dies ermöglicht eine reibungslosere, effektivere Navigation durch Ihre Daten.

2. Geringe Datenstruktur – Sie vermissen also Übereinstimmungen

Lösung: Fügen Sie eine Struktur mit einfacher Markierung und Extraktion bis hin zur automatischen Klassifizierung hinzu.

Tippfehler und Durcheinander kommen vor. Wenn Sie also bei der Klassifizierung weniger streng vorgehen, können Sie sicherstellen, dass Sie nicht fälschlicherweise potenzielle Treffer ausschließen. Das Durchsuchen von Daten mit unscharfer Logik, phonetischer Schreibweise und Regex-Formatierung sind Möglichkeiten, um zu vermeiden, dass Sie über das Gesuchte hinweggehen.

Aber bevor Sie irgendetwas mit maschinellem Lernen anfangen, bevor Sie Code schreiben und bevor Sie die Datenbereinigungstricks herausholen, sollten Sie die Quelldaten korrigieren lassen. Die Daten kamen von irgendwoher – versuchen Sie, die Daten (und sogar die damit verbundenen Prozesse) zu korrigieren, bevor sie Sie erreichen. Es ist einen Versuch wert und macht das Leben einfacher, wenn die Daten sauber beginnen und sauber bleiben.

[Wenn Sie ganz von vorne anfangen, finden Sie hier einige Hinweise zur Erstellung eines Klassifizierers.]

Hier ein Beispiel aus der Praxis, wie sich schlechte Daten auf Projekte auswirken

Es war einmal ein Freund, der ein neues, verbessertes, auf Solr basierendes Suchsystem vor einer Gruppe von hochrangigen Interessenvertretern präsentierte, als ein hochrangiger Domänenexperte darauf hinwies, dass sie dieses System wegen der vielen „schlechten Daten“, die es anzeigte, nicht einsetzen könnten. Die Leute im Raum hatten ihre Daten noch nie facettiert gesehen, und es war leicht, die Fehler zu erkennen.

„Financial (37)“ war akzeptabel, aber „Finacnial (1)“ war eklatant. Korrigieren Sie einfach diesen Datensatz und indexieren Sie neu! Wenn Sie das nicht können, lesen Sie weiter, um weitere Lösungen für diesen einen schlechten Datensatz zu finden, der in einer vertippten Kategorie belassen wurde und durch intuitive Navigation nicht auffindbar ist.

Stellen Sie sich ein Produkt wie „ipad“ vor – wobei „ipda“ genauso wahrscheinlich eingegeben wird.

Und hier ist eine Verstärkung: „Wenn ein Dokument jedoch nicht angemessen getaggt ist, kann es für den Benutzer unsichtbar werden, sobald die Facette, in der es enthalten sein sollte (aber nicht ist), ausgewählt wird“, sagte unser geliebter Ted Sullivan in einem vorausschauenden, alten Artikel mit dem Titel Thoughts on „Search vs. Discovery„.

3. Daten, die nicht nebenbei lernen, erzeugen Stagnation

Lösung: Sammeln Sie Nutzersignale und speisen Sie Verbesserungen in das System ein.

In Anbetracht der Nutzung unserer Datensysteme – heutzutage ist alles eine suchbasierte App – lässt sich aus den Abfragen und den Zugriffen der Benutzer eine Menge herauslesen. Wir sind ziemlich gut in der Suche und der Protokollierung geworden, aber die fehlende Magie liegt in der Kombination mit maschinellem Lernen, um die Ergebnisse kontinuierlich zu verbessern.

Ihre Daten werden verwendet. Oder doch nicht? Und wer nutzt sie? Gibt es Produkte/Dokumente, die nicht genutzt werden, weil sie selten in den Suchergebnissen erscheinen? Ein Blick auf die Nutzung Ihres Wissenssystems hilft Ihnen, heiße Themen und Trends zu erkennen, aber vergessen Sie nicht, auch in die dunklen und staubigen Ecken zu schauen, in denen sich Dinge verstecken und vergessen werden.

  • Wenn Sie den Sprachgebrauch kennen, können Sie Korrekturen in der Rechtschreibung erkennen. Lernen Sie von mir, wenn ich „blaue Schuhe“, ups, Backspace Backspace, korrigieren will, ich meine „blaue Schuhe“.
  • Erfahren Sie, dass der Artikel auf der zweiten Seite wirklich relevanter und nützlicher ist, weil ich ihn angeklickt und die erste Seite der Ergebnisse übersprungen habe.
  • Lernen Sie die relevanten Teile von Abfragen mithilfe der Head/Tail-Analyse, damit Ihr System die Absicht der Benutzer bei unklar formulierten Abfragen besser versteht.

Die Kurzformel? Sie haben Daten. Und Sie haben Metadaten, wie z.B. Fachterminologie, Kategorien, Taxonomien und dergleichen. Machen Sie das Beste aus dem, was Sie haben, und verwenden Sie moderne Tools, die diese Daten korrigieren, verbessern und daraus lernen können.

Daten müssen gepflegt und gefüttert werden, damit sie ihre volle Pracht entfalten können. Im Falle von Einzelhändlern sorgen erfolgreiche Systeme für ein unglaubliches Kundenerlebnis. Stellen Sie sicher, dass Ihre Daten-Toolbox alles enthält, von einfachen Regexen bis hin zum maschinellen Lernen, um die drei häufigsten Hindernisse bei der Datenermittlung und -klassifizierung zu vermeiden, die die Suche und das Einkaufserlebnis Ihrer Kunden beeinflussen.

Unternehmen, die Zeit und Geld investieren, um diese drei häufigsten (und behebbaren) Fallstricke bei der Datenermittlung und -klassifizierung zu beseitigen, werden auf lange Sicht die Nase vorn haben. Wenn sie besser darauf vorbereitet sind, die neuesten Tools für maschinelles Lernen in ihr Sucherlebnis einzubinden, können sie das begehrte, erstklassige Kundenerlebnis bieten.

Erik erforscht die suchbasierten Möglichkeiten von Lucene, Solr und Fusion. Er ist Mitbegründer von Lucidworks und Mitautor von ‚Lucene in Action‘.

You Might Also Like

KI-Agenten dominieren den Einkauf. Ist Ihre Website auf die KI-gestützte Suche vorbereitet?

Generative KI-Agenten wie ChatGPT definieren die Produktsuche neu. Erfahren Sie, wie Sie...

Read More

Vom Suchunternehmen zum praktischen KI-Pionier: Unsere Vision für 2025 und darüber hinaus

CEO Mike Sinoway gibt Einblicke in die Zukunft der KI und stellt...

Read More

Wenn KI schief geht: Fehlschläge in der realen Welt und wie man sie vermeidet

Lassen Sie nicht zu, dass Ihr KI-Chatbot einen 50.000 Dollar teuren Tahoe...

Read More

Quick Links