Genauigkeit vs. Geschwindigkeit – Was Datenwissenschaftler von der Suche lernen können

Als Datenwissenschaftler haben wir eine oberste Priorität: genaue Erkenntnisse zu liefern. Wenn Sie wie ich ein Datenwissenschaftler sind, der auch an der Suche (oder einer anderen Echtzeitanwendung) arbeitet, müssen Sie zwei konkurrierende Prioritäten verwalten, die manchmal aneinandergeraten: Genauigkeit und Geschwindigkeit.

Ich werde Ihnen einige der Dinge erläutern, die ich durch Versuch und Irrtum als Datenwissenschaftler im Bereich Suche gelernt habe. Dazu gehören auch Tipps, wie Sie einige der Reibungsverluste ausgleichen können, die auftreten können, wenn Sie ein Tool entwickeln, das die Zusammenarbeit mit anderen Fachbereichen erfordert.

Lernen Sie, wie man über die Suche denkt

Als Datenwissenschaftler gibt es viele Begriffe und Konzepte, die für die Suche spezifisch sind. Zum Beispiel ist die Entdeckung der Leistungsfähigkeit des invertierten Indexes – ein Konzept, mit dem ich noch nie gearbeitet hatte – entscheidend für den Aufbau einer Suchplattform. (Zu Ihrer Information: Ein invertierter Index ist „eine einfache Möglichkeit, Dokumente, Bilder, Medien und Daten unabhängig von der Struktur des Dokuments zu durchsuchen, aus dem die Daten stammen“).

Ein weiterer Bereich, in dem ich lernen musste, wie man die Verarbeitung natürlicher Sprache (Rechtschreibfehler, Entity-Extraktion oder Synonym-Erkennung für das Umschreiben von Abfragen) und andere maschinelle Lerntechniken (Klassifizierer, Clustering, Empfehlungsprogramme) in einer Pipeline organisiert.

Nachdem ich einige Zeit damit verbracht hatte, die Mechanismen einer Suchplattform zu verstehen, war ich auf halbem Weg zum Ziel. Aber dann musste ich herausfinden, wie man Ergebnisse messen kann. Die Metriken und KPIs, die Suchentwickler und Unternehmen verwenden, um die Effizienz ihrer Suchplattform zu bestimmen, waren für mich neu.

Beispielsweise konzentrieren sich Datenwissenschaftler in erster Linie auf Messungen der Modellgenauigkeit, die auf Fehlerraten, Fehlertypen, Fehlklassifizierungen usw. abzielen. Die zur Messung der Modellgenauigkeit verwendeten Metriken lassen sich jedoch manchmal nur schwer mit den aggregierten Geschäftsmetriken für die Suchrelevanz in Einklang bringen. Die Suchmetriken sind in der Regel eher geschäftsorientiert und umfassen Klickraten, Add-to-Cart und Käufe (für E-Commerce) sowie das Kommentieren, Teilen und Bewerten von Dokumenten und Ergebnissen (für den digitalen Arbeitsplatz).

intelligent search application 720

Wenn Ihnen das zunächst abschreckend vorkommt (wie das erste Mal, wenn Sie ein neues Gebiet betreten), bitten Sie einen Suchentwickler in Ihrer Organisation, Sie zu Beginn eines jeden Projekts durch die Terminologie, die Metriken und die Überlegungen zur Bereitstellung zu führen. Dieser Wissenstransfer sollte in beide Richtungen erfolgen, falls die Suchentwickler einen Überblick über die Data Science-Prozesse und -Methoden benötigen. Leider ist es in den meisten Unternehmen selten, dass diese Art von funktionsübergreifendem Wissenstransfer regelmäßig stattfindet, und es ist sehr schmerzhaft, wenn Sie einem Projekt Zeit widmen und dann auf halbem Weg feststellen, dass Sie auf falschen Annahmen aufgebaut haben.

Passen Sie Ihre Herangehensweise an die Erstellung von Modellen an

Wenn Sie die obige Übung durchgehen, verstehen Sie jetzt, dass der andere wichtige Akteur bei der Suche, der Suchentwickler, sich darauf konzentriert, wie die gesamte Suchpipeline funktioniert. Sie müssen jetzt nicht mehr nur darüber nachdenken, wie genau die Modelle funktionieren, sondern auch darüber, wie sie sich als eine Komponente in ein größeres System einfügen.

Verfolgen Sie einen „vergrößerten Ansatz“. Fragen Sie sich selbst: „Ist das Endziel für mich klar? Wie schnell müssen meine Modelle arbeiten? Lassen sie sich skalieren?“ Die Antworten auf diese Fragen können als Leitfaden dienen, um effektivere, leichtgewichtige und reaktionsschnelle Modelle in der gesamten Pipeline zu erstellen und so die Geschäftsergebnisse zu verbessern.

iStock 1151871244 e1597780977742

Für Unternehmen des digitalen Handels bedeuten bessere Geschäftsergebnisse eine Steigerung des Umsatzes, und am digitalen Arbeitsplatz bedeutet dies eine Steigerung der Produktivität. Aber ohne zu wissen, wie sich das Modell in das Gesamtsystem einfügt, ist es schwierig zu wissen, ob Ihre Ergebnisse wirklich relevant sind oder auf die optimale Weise geliefert werden.

Die Dynamik des Projekts aufrechterhalten

Um ein ansprechendes Sucherlebnis zu bieten, müssen funktionsübergreifende Disziplinen wie Suchentwicklung, Data Science, Betrieb und Geschäftsbereiche zusammenarbeiten und gemeinsam innovativ sein. Die meisten Unternehmen stoßen bei der teamübergreifenden Zusammenarbeit jedoch auf zahlreiche Hindernisse, darunter Prozesse, Hierarchien, Persönlichkeiten und die Kultur im Allgemeinen. Das Jonglieren mit den Prioritäten Geschwindigkeit, Genauigkeit und Integration kann zu Reibungen in der Iteration zwischen Datenwissenschaftlern und Suchentwicklern führen.

Der beste Prozess ermöglicht theoretisch die Art von Iteration und Hin- und Hergehen, bei der Datenwissenschaftler die Artefakte (Modelle) liefern, die die Suchentwickler integrieren, schnell in der Abfrageerfahrung testen und bei Bedarf zur Verfeinerung an das Zeichenbrett zurückschicken können. Die meisten Suchprojekte scheitern an einem Mangel an Integration und Zusammenarbeit. Das liegt weniger daran, dass die Teams nicht über das nötige Wissen verfügen, sondern vielmehr daran, dass die Ziele, Erwartungen und Prozesse nicht aufeinander abgestimmt sind.

Kommunikation ist hier der Schlüssel. Es ist sehr hilfreich, wenn sich jemand mit Ihnen zusammensetzt und Ihnen erklärt, wie er die Dinge von Anfang bis Ende durchführt. Bevor Sie etwas produzieren, ist es wichtig zu verstehen, wie der Alltag der anderen Beteiligten im Bereich Suche aussieht – einschließlich der verwendeten Datenquellen und Datenformatierungen, der angewandten Transformationen, der verfolgten Metriken und der architektonischen Überlegungen.

Diese Reibungspunkte sind Dinge, die wir beim Aufbau unserer Suchplattform bei Lucidworks im Auge behalten. Wir setzen uns mit den Reibungspunkten zwischen Datenwissenschaftlern und Suchentwicklern auseinander, arbeiten daran, die Übergaben zu vereinfachen und die Verbindung zur Messung der Geschäftsergebnisse herzustellen. Wir sind besessen davon, unseren Kunden eine möglichst relevante und leistungsstarke Sucherfahrung zu ermöglichen. Die Suche ist nicht einfach, aber wenn sie richtig konzipiert ist, kann sie einen großen Einfluss auf das Kundenerlebnis haben!

Die Zukunft der Datenwissenschaftler in der Suche

Im Bereich der Suche entdecken wir jeden Tag neue Möglichkeiten, wie Deep Learning das Sucherlebnis verändern kann. Als Datenwissenschaftler arbeiten wir auf eine sehr nahe und erreichbare Zukunft hin, in der Menschen mit Anwendungen auf eine dialogorientierte Weise interagieren werden. Dies geschieht bereits in unserer Erfahrung als Verbraucher, aber es beginnt, sich auf alle digitalen Anwendungen auszudehnen, mit denen wir interagieren.

Beispiele für Arbeitsplatzanwendungen sind ERP-Systeme, CRMs, Business-Intelligence-Anwendungen oder die zentrale Abfrage von Informationen aus anderen Systemen. Wir sehen bereits große Erfolge bei der Bewältigung der Herausforderungen, die darin bestehen, gesprochenen oder frei formulierten Text so zu interpretieren, dass Maschinen ihn verstehen, um eine Abfrage zu erstellen und relevante Ergebnisse und Empfehlungen in einem Format auszugeben, das der Benutzer konsumieren und darauf reagieren kann.

Die neue Grenze bei der Suche ist das Verstehen der expliziten und impliziten Absichten des Benutzers, und das muss über das reine Textverständnis hinausgehen. Dazu gehört das Erlernen des Kontexts anhand der Suche und des Browserverlaufs des Benutzers, der Eigenschaften des Benutzers und der von ihm konsumierten Suchergebnisse sowie der Nutzung anderer Benutzer, die die Ergebnisse der aktuellen Suche beeinflussen können.

Wenn ein Vertriebsmitarbeiter zum Beispiel eingibt: „Geben Sie mir meine Pipeline für mein nordwestliches Gebiet“, könnte das Verstehen der Absicht bedeuten, dass die Ergebnisse auch Kontaktinformationen enthalten, wenn eine Kontaktaufnahme erforderlich ist, eine Zusammenfassung früherer Kommunikationen, wenn er/sie einen Bericht vorbereitet, oder einen Seite-an-Seite-Vergleich Ihrer südwestlichen Gebiete zum Benchmarking.

Tipps für den Erfolg als Data Scientist (in jedem Bereich)

iStock 1146475545 e1597781218390

Ich unterrichte ein Karriereseminar für Datenwissenschaftler und erkläre immer, dass wir Einblicke vermitteln und keine Entscheidungsträger sind. Wir sollten Modelle entwickeln, die es den Menschen ermöglichen, Erkenntnisse schnell zu verstehen und sie dann anzuwenden, um intelligente Entscheidungen zu treffen. Die besten Datenwissenschaftler können Modelle entwickeln, die den richtigen Leuten zur richtigen Zeit die „richtigen“ Erkenntnisse liefern. Um Ihre Relevanz als Datenwissenschaftler zu erhöhen, sollten Sie Ihren Blickwinkel erweitern. Die meisten „Einhörner“ befinden sich an der Schnittstelle dieser drei Bereiche: Algorithmisches Wissen, System-/Architekturwissen und geschäftliche/kommunikative Fähigkeiten.

Die Suche ist ein Lehrbuchbeispiel dafür, wie diese Dinge zusammenkommen müssen, um ein System zum Laufen zu bringen. Wenn Sie ein Algorithmus-Experte sind, aber nicht verstehen, wie er skaliert, oder wenn Sie nicht wissen, wie Sie Ihren Algorithmus mit dem Ziel verbinden können, durch ein relevantes Sucherlebnis die Konversionsrate zu steigern, werden Sie nicht in der Lage sein, dem Unternehmen so viel Wert zu liefern.

Es ist definitiv eine aufregende Zeit, um als Datenwissenschaftler im Bereich der Suche tätig zu sein. Während die Berichterstattung über die Entwicklung der Suchtechnologie allgegenwärtig war, glaube ich, dass wir gerade erst an der Oberfläche kratzen. Ich freue mich darauf zu sehen, wie die KI-gestützte Suche weiterhin neue, aufregende und wirkungsvolle Möglichkeiten für Datenwissenschaftler schafft.


Die Originalversion dieses Artikels finden Sie auf KDnuggets.

You Might Also Like

Dritte jährliche KI-Benchmarkstudie 2025: Was wir im B2C-E-Commerce sehen

Laden Sie die B2C-KI-Benchmark-Einblicke 2025 von Lucidworks herunter. Werfen Sie einen Blick...

Read More

B2B-KI-Benchmarkstudie 2025: Was wir in den Schützengräben sehen

Laden Sie die B2B-KI-Benchmark-Highlights 2025 von Lucidworks herunter. Sehen Sie sich die...

Read More

Vom Suchunternehmen zum praktischen KI-Pionier: Unsere Vision für 2025 und darüber hinaus

CEO Mike Sinoway gibt Einblicke in die Zukunft der KI und stellt...

Read More

Quick Links