Lösung der letzten Meile der Suchrelevanz bei PwC
Erfahren Sie, wie das weltweit tätige Dienstleistungsunternehmen PricewaterhouseCoopers mit Hilfe von Unternehmensontologien und Indizierung auf Satzebene die Relevanz um 43 % steigern konnte.
Das Dienstleistungsunternehmen PricewaterhouseCooper (PwC) ist eine der Big Four Wirtschaftsprüfungsgesellschaften mit 276.000 Mitarbeitern auf der ganzen Welt. Das sind viele Benutzer, die täglich viele Daten und Informationen benötigen, um ihre Arbeit zu erledigen. Viren Patel, Director of Enterprise Search bei PwC, präsentierte auf der diesjährigen virtuellen Activate, der Konferenz für Suche und KI, seine Erkenntnisse und Methoden zur Lösung der „letzten Meile“ der Suchrelevanz für seine eigenen internen Suchanwendungen.
Aufbau einer unternehmensweiten Suche bei PricewaterhouseCoopers
Die wichtigste unternehmensweite Suchanwendung von PwC wurde mit Lucidworks Fusion entwickelt und umfasst eine API-basierte „Search as a Service“-Architektur, mit der Teams Anwendungen erstellen können, die auf den Suchindex zugreifen und die Ergebnisse in ihre eigenen Arbeitsabläufe integrieren. Die Suchanwendung indexiert Inhalte aus verschiedenen Quellsystemen wie Content-Management-Systemen, Angebots-Hubs, Bibliotheken mit Lerninhalten, ServiceNow-Tickets, digitalen Assets und internen Videokanälen. Einige Geschäftsbereiche haben auch ihre eigenen privaten Systeme, so dass der Suchdienst den Benutzern die Möglichkeit gibt, nur ihre privaten Indizes sicher abzufragen und nicht den gesamten Korpus. Lucidworks fasst all diese Informationen in einer einheitlichen Ansicht zusammen, die Daten, Personen, Experten, Projekte und Unternehmen miteinander verbindet.
Als das Suchteam nach Möglichkeiten suchte, die Relevanz für seine Apps zu verbessern, stellte es fest, dass Suchanfragen in ein paar gemeinsame Kategorien fallen:
- Dokumente, die zur Beantwortung einer bestimmten Frage erstellt wurden: Wie sieht der Ferienplan 2021 aus?
- Dokumente mit relevantem Inhalt, z.B. wenn ein Benutzer nach einem bestimmten Angebot sucht, das einem Kunden für ein bestimmtes Projekt vorgelegt wurde
- Browsing nach Einblicken: Suche nach Informationen über interne Daten und Informationen über bestimmte Personen oder Unternehmen
- Spezifische Fragen, die nicht nur an ein Dokument gebunden sind: Wer ist der globale Partner von Coca-Cola?
Trotz all dieser Technologie und Effizienz bei der Verbindung von Nutzern und Informationen gab es immer noch Fortschritte im Bereich der Suchrelevanz, um das Nutzererlebnis zu verbessern und die Produktivität zu steigern.
Das Problem der Relevanz
Wie viele andere Unternehmen hatte auch das Team von PwC nicht die Ressourcen, um eigene, maßgeschneiderte NLP-Lösungen zur Verbesserung der Genauigkeit und Präzision zu entwickeln. Sie beschlossen, ihre bestehende Lucidworks Fusion-Implementierung zu erweitern und sie mit einigen Standardkomponenten eines anderen Anbieters zu kombinieren, um eine Lösung zu schaffen, die bei jeder Abfrage bessere Ergebnisse erzielt.
Der erste Teil der Lösung nutzte die Signalerfassung und das maschinelle Lernen von Fusion, um Informationen darüber zu sammeln, wonach Nutzer gesucht und worauf sie geklickt haben, und dann ML-Modelle für ein besseres Ranking und eine bessere Bewertung der Suchergebnisse einzusetzen.
Aber Signale können nicht gesammelt werden, wenn es keine Klicks zu erfassen gibt. Deshalb enthält die Lösung auch das Modul Top Search Optimizer des Anbieters Noonean Cybernetics. Dieses Modul überwacht die Top-Suchbegriffe und ordnet die Begriffe der Benutzer den Unternehmensbegriffen zu, um Unternehmensontologien zu erstellen.
Das Enterprise NLP-Modul von Noonean wurde ebenfalls eingesetzt, um Dokumente bis auf Satzebene zu indizieren und zu analysieren. Enterprise NLP kann die grammatikalische Struktur und Häufigkeit pro Satz verstehen, um die Präzision und Genauigkeit der Suche zu verbessern. Diese Fähigkeit wird in der Regel bei Suchen in natürlicher Sprache oder bei Suchen mit drei oder mehr Suchbegriffen eingesetzt.
Um eine Feedbackschleife für die Benutzer einzubauen, wurde den Suchergebnissen ein „Daumen hoch“-UI-Element hinzugefügt, damit die Benutzer die Suchergebnisse und die Relevanz schnell bewerten konnten. Wenn ein Benutzer einer Reihe von Ergebnissen einen Daumen nach oben gab, wurde dies bei weiteren Relevanzberechnungen berücksichtigt. Lucidworks Fusion Recommendations wurde auch eingesetzt, um bessere Empfehlungen auf der Grundlage der früheren Suchanfragen eines Nutzers oder ähnlicher Nutzer zu geben.
Eine letzte Zutat für das Relevanzrezept war die Verzerrung des Datums, damit neuere und frischere Inhalte in den Suchergebnissen höher rangieren.
Aufbau von Ontologien für mehr Relevanz
Die Benutzer kennen nicht immer die „richtigen“ oder „korrekten“ Wörter, um das zu finden, was sie suchen. Ein PwC-Mitarbeiter, der nach den Handyrichtlinien und Rabattangeboten des Unternehmens sucht, weiß vielleicht nicht, dass dieses Programm intern eMobility heißt. Wenn Sie verstehen und beobachten, wie die Benutzer suchen und welche Wörter sie verwenden, können die „falschen“ Wörter dem richtigen Unternehmens- oder internen Begriff zugeordnet werden. In diesem Fall wurde ein Link erstellt, der die eMobility-Hauptseite an die Spitze der Suchergebnisse brachte, um den Benutzer dorthin zu bringen, wo er hinwollte.
Ein zweites Beispiel ist die Suche eines Mitarbeiters nach Informationen über Betrug, Betrugsmanagement, Betrugsaufdeckung, Hauptbuchbetrug und andere Abfragen im Zusammenhang mit der Abteilung für Finanzkriminalität des Unternehmens. Durch eine sorgfältige Kuratierung und Zuordnung wurden diese Begriffe und die damit verbundenen Abfragen in die Ontologie aufgenommen, um die mit der Abteilung für Finanzkriminalität verbundenen Links zu stärken.
Das mag wie eine einfache Erkennung und Ersetzung von Synonymen klingen, aber der Unterschied ist, dass die Abfrage nicht umgeschrieben oder ersetzt wird. Die Ontologie setzt die Konzepte der Abfrage in Beziehung und erweitert sie, um die Absicht zu erkennen. Wenn der Benutzer also nach Betrugsbekämpfung sucht, aber nicht nach der Financial Crimes Unit, bleibt die ursprüngliche Absicht der Abfrage erhalten und die Ergebnisse basieren auf dieser Abfrage.
Indizierung bis hinunter zur Satzebene
Eine weitere wichtige Funktion war die grammatikalische Suche, die eine Indizierung bis auf Satzebene ermöglichte, die vom Enterprise NLP-Modul bereitgestellt wurde. Im Gegensatz zu typischen Suchfunktionen, die Abfragen mit dem Inhalt eines Dokuments abgleichen, indizieren diese Abfragen bis auf Satzebene und zeigen nur dann eine Übereinstimmung an, wenn die Wörter im Satz in der richtigen grammatikalischen Beziehung stehen. Eine Abfrage wie „Wie kann ich eine neue SIM-Karte beantragen?“ ist also wahrscheinlich keine kuratierte Abfrage und wahrscheinlich auch keine häufige Abfrage, aber durch die Indizierung auf Satzebene können die richtigen Ergebnisse zurückgegeben werden.
Bei diesem Ansatz handelt es sich nicht um eine Kuratierung oder um die Optimierung von Top-Suchanfragen, sondern um die seltenen schwierigeren Suchanfragen der Benutzer. Nachweis eines Q&A-ähnlichen Ergebnisses, aber gegen einen ganzen Korpus von Dokumenten. Das Ziel unserer Ergebnisse ist es, das relevanteste Dokument und den Textabschnitt zu liefern, in dem der Nutzer die gesuchte Information findet.
Priorisierung der Ausführung für optimierte Abfragen
Mit all den oben genannten Strategien wurden die Abfragen in den folgenden Fluss priorisiert:
Eine Anfrage wird vom Benutzer an die Suchanwendung übermittelt.
Wenn es sich bei der Anfrage um eine allgemeine oder Top-Suche handelt, wird sie durch den Top Search Optimizer geleitet und der kuratierte Unternehmens- oder Top-Suchbegriff und die Ergebnisse werden mit dem kuratierten Ergebnis an der Spitze zurückgegeben. 40%-50% der Suchanfragen folgen diesem Weg.
Wenn die Abfrage keine allgemeine Abfrage ist oder aus drei oder vier weiteren Begriffen besteht, wird sie durch das Enterprise NLP-Modul geleitet, um Ergebnisse zu liefern, die auf Satzebene indiziert sind und den genauen Abschnitt des Dokuments betreffen.
Alle anderen Ergebnisse werden über Fusion eingespeist und es gilt die herkömmliche Relevanz.
Alle Abfrage- und Klickkombinationen aus den drei oben genannten Ansätzen werden in die ML-Modellierung von Fusion eingespeist, so dass sich das System kontinuierlich selbst optimiert und mit jeder Suche intelligenter wird.
Gesteigerte Relevanz um 43%
Das Suchteam bei PwC sammelt, analysiert und berichtet regelmäßig über wichtige Suchmetriken wie Suchvolumen, Suchnutzung, Null-Ergebnis-Anfragen, abgebrochene Suchanfragen und Klickraten. Mit diesen neuen Relevanzverbesserungen konnte das Team mehrere Verbesserungen feststellen:
- Überbrückung der Lücke zwischen den bestehenden Geschäftsregeln und der Kuration, die nicht immer die besten Suchergebnisse lieferte
- Steigerung der Relevanz um 43% mit dieser „Last Mile Relevanz“-Lösung
- Reduzierung der abgebrochenen und nicht angeklickten Suchanfragen im Vergleich zum Vormonat
- Die kognitive Suche und der NLP-Ansatz lieferten präzisere und genauere Ergebnisse und ein verbessertes Benutzererlebnis, das Einblicke gewährt
Und all dies hat letztendlich dazu beigetragen, dass PwC auf der Activate 2019 als Gewinner der Enterprise Workplace Solution ausgezeichnet wurde, die von Forrester Research und anderen Forschungsunternehmen bewertet wurde.