Activate Konferenz bietet eine Hommage an die Suche – mit KI-Twist
Die Such- und KI-Konferenz Activate 2018 fand letzte Woche in der Geburtsstadt der Websuche statt – Montreal. Im Jahr 1989 entwickelte ein Doktorand und Systemadministrator an der McGill University namens Alan Emtage die erste Websuchmaschine, Archie. Die erste Version verfügte über eine einfache Benutzeroberfläche und indizierte FTP-Archive, die auf dem Suchserver mit grep durchsucht werden konnten.

Fast 30 Jahre später hat die Suche einen langen Weg zurückgelegt. Auf der Activate 2018 zeigte Lucidworks der Lucene-Solr-Welt eine neue Künstliche Intelligenz (KI) und Benutzeroberflächen für die kontinuierliche Verwaltung der Informationsbeschaffung.
Um es ganz offen zu sagen: Ich habe die Lucidworks-Konferenz nicht als Mitarbeiter oder Kunde von Lucidworks besucht – sondern als Software-Ingenieur, der von den Experten etwas über die Suche lernen wollte. Ich sah die Liste der Vortragenden und sie sahen vielen der Lucene-Solr-Mitarbeiter unheimlich ähnlich. Die Activate war vollgepackt mit einigen der einflussreichsten Architekten und Entwickler in den Bereichen Suche, maschinelles Lernen und natürliche Sprachverarbeitung.
Experten bieten praktische Ratschläge … und Vorbehalte
Auf der Konferenz kamen echte Praktiker zu Wort – wie Josh Wills, der die Suche bei Slack leitet und zuvor bei Google gearbeitet hat – und betonten, dass es keine Einheitsmodelle gibt und dass sie manchmal veraltet sind. Auf einer Podiumsdiskussion, die von Grant Ingersoll, dem Gründer und CTO von Lucidworks, moderiert wurde, erinnerte sich Wills an eine Zeit bei Google, in der Anzeigen, die mit maschinellem Lernen erstellt wurden, immer seltener erschienen. Er scherzte, dass das Anzeigensystem „selbstbewusst“ geworden war und dass die Anwendung zur Anzeigenschaltung entdeckte, „dass sie selbst keine Anzeigen besonders mochte“.
Er und andere Diskussionsteilnehmer waren sich einig, dass der Einsatz von KI nach hinten losgehen kann, wenn Sie ein System entwickeln, das zu kompliziert ist, oder wenn es ein veraltetes Modell nutzt.
Abfrage-Intention ableiten
Bei Activate haben wir uns eingehend damit beschäftigt, wie die neueste Version von Fusion es Benutzern ermöglicht, ihre Daten mit integrierten Automatisierungsaufgaben wie der logistischen Regressionsanalyse anzureichern. Während des KI-Kurses startete ich eine logistische Regressionsklassifizierung für einen öffentlichen eCommerce-Datensatz und stellte fest, dass mehr als 20% der Abfragen, die als „Computer“ klassifiziert wurden, auch als „Zubehör“ klassifiziert wurden. An dieser Stelle stach die Fusion Server Phrase Extraction für mich hervor.
Neu in Fusion 4.1 können Sie einen Job ausführen, um Phrasen aus Ihrem Datensatz zu extrahieren, die Benutzer sonst an die falsche Stelle leiten könnten. Nehmen wir zum Beispiel die Abfrage „rote iPad-Hülle“. Eine Suchmaschine könnte mit dieser Abfrage (wie mit den meisten) in viele Richtungen gehen, denn die Ergebnisse könnten jemanden, der nach „Zubehör“ sucht, zu „Computer“ führen.
Wenn das iPad verstärkt wird, ist die Wahrscheinlichkeit noch größer, dass die Ergebnisse den Nutzer nicht an das gewünschte Ziel führen. Mit Hilfe der Phrasenextraktion und der ~ für die unscharfe Suche hilft Ihnen Fusion, die Signale herauszufiltern, die den Suchenden genauer zu den Informationen führen, die er bei seiner Suche sucht. „iPad Case“, „Case iPad“ oder eine beliebige Wortkombination, die sowohl „iPad“ als auch „Case“ enthält, sollte zuerst iPad Cases liefern. Nicht iPads.
Beseitigen Sie Benutzerfehler auf Handys und Tablets
Jetzt, da Tablets und Telefone allgegenwärtig sind, ist der Einfluss der Suchlatenz auf die Benutzerbindung noch wichtiger geworden. Benutzer von Touchscreens sind viel fehleranfälliger. Benutzer von Mobilgeräten geben wahrscheinlich Suchanfragen mit 3 falschen Zeichen ein, weil die Tasten kleiner sind.12
Fehler bedeuten jedoch mehr Bearbeitungszeit oder schlimmer noch, langsamere und weniger hilfreiche Ergebnisse. Trotzdem wollen mobile Benutzer ihre Suchergebnisse jetzt. Herkömmliche Suchmaschinen, einschließlich Solr, können jedoch nur schwer mit Suchvorgängen umgehen, bei denen der Bearbeitungsabstand größer als 2 ist.
Vereinfacht ausgedrückt, entspricht die Editierdistanz der Anzahl der Fehler oder Tippfehler in einer Abfrage und basiert auf der Damerau-Levenshtein-Distanz. Jedes Mal, wenn eine ursprüngliche Abfrage eine Einfügung, eine Löschung, eine Ersetzung oder einen Transport von Zeichen erfordert, um die vom Benutzer beabsichtigte Abfrage zu bilden, erhöhen Sie die Editierdistanz um einen Schritt.
Nehmen wir an, ein Nutzer, der nach einer iPad-Tasche sucht, würde mit „ipd xasse“ suchen.Die Bearbeitungsdistanz zur Zielabfrage wäre 3. Eine für das Einfügen von „a“ vor „d“, eine für das Ersetzen von „x“ für „c“ in „xasse“ und eine dritte Erhöhung der Editierdistanz für das Löschen des zusätzlichen „s“ im zweiten Wort der ursprünglichen Abfrage „casse“. Solr implementiert den Levenshtein-Algorithmus für die Editierdistanz für alle Abfragen mit einer Editierdistanz zwischen 0 und 2, aber für Editierdistanzen > 2 wird Solr langsamer.
Fusion kann jedoch mit größeren Editierabständen umgehen. Chao Han, VP of Data Science bei Lucidworks, demonstrierte, wie der Abfrageparser von Fusion schnell einige Abfragen bearbeiten kann , die ursprünglich mit der Kopf-Schwanz-Analyse von Fusion entdeckt wurden.
Nehmen wir an, wir haben „ipd xasse“ in der Liste der hinteren Suchanfragengefunden – dieArt von Suchanfragen, die nicht zu einer hohen Nutzeraktivität führen. Die Engine, die die Kopf/Schwanz-Analyse von Fusion steuert, kann eine Neuformulierung vorschlagen, kontextbezogene Informationen einbeziehen und den Schwanz mit Hilfe der Token- und Phrasen-Rechtschreibkorrektur zum Kopf machen.
Fusion sollte „ipd xasse“ für Sie korrekt umschreiben. Sollte dies nicht der Fall sein, bietet Fusion auch eine Weboberfläche zur manuellen Bearbeitung der Solr synonyms.txt Datei (Abbildung B). Sie können die Umschreibung für „ipd xasse“ als Synonym für „ipad case“ hinzufügen, und nachfolgende Instanzen der Abfrage leiten die Benutzer zum entsprechenden „Zubehör“. Andernfalls könnte der mobile Nutzer auf eine andere Website gehen, um eine iPad-Hülle und mehr zu kaufen.

Niemand sollte akzeptieren, dass er aufgrund einer langsamen mobilen Suche Kunden an die Konkurrenz verliert!
Spinning Up Clusters – und Lösungen
Die Teilnehmer dieser Konferenz verbrachten die Woche damit, Server-Cluster aufzusetzen, Lösungen für die Probleme der anderen zu finden und sich auf die Details zu konzentrieren. Es war jedoch keine Konferenz zur Selbstdarstellung der Anbieter.
Unabhängig von Ihrem Unternehmensbereich, Ihrer Erfahrung mit Fusion oder Ihren Solr-Kenntnissen gab es Sitzungen für jeden mit umsetzbaren Informationen. Obwohl ich mich erst kürzlich mit den Möglichkeiten von Fusion durch Probe-Downloads und Tutorials auf der Lucidworks-Website vertraut gemacht hatte, konnte ich gleich nach meiner Ankunft bei der von einem Ausbilder geleiteten und von einem TA unterstützten Schulung am Montag ins kalte Wasser springen.
Wenn Sie schnell vorankommen wollten, konnten Sie die Kursunterlagen nehmen und in Ihrem eigenen Tempo vorgehen, wobei die Präsentation als hilfreiche Hintergrundmusik diente. Wenn Sie Solr und Fusion noch nicht kannten, nicht besonders technikaffin waren oder es langsamer angehen lassen wollten, standen Ihnen TAs (Lucidworks-Mitarbeiter) zur Seite, um Ihnen über die Runden zu helfen. Jeder, der teilgenommen hat, ist aufgestiegen.
Als Alan Emtage 1989 in Montreal Pionierarbeit leistete, indem er die Suche, eine Funktion, die denjenigen, die damals mit der Kommandozeile vertraut waren, gut bekannt war, auf eine Benutzeroberfläche im Web brachte, begann eine Ära der Informatik, die unsere Welt für immer radikal verändert hat.
Heutzutage verfügt fast jede Website oder App über irgendeine Implementierung der Suche. Suchmaschinen sind für die meisten Internet- und Intranetnutzer die Startseite des Webs. In der gleichen Stadt, 29 Jahre später, brachte Activate 2018 KI in die Suche. Ich kann nicht sagen, was das Zusammentreffen von KI und Suche in den nächsten 30 Jahren bedeuten wird, aber was für eine Zeit, in der wir leben!
Die Aufzeichnungen der Konferenzvorträge und Break Out Sessions finden Sie hier.
_____
1 In einer Studie über Tippfehler bei Passwörtern und sichere Korrekturen stellte die IEEE fest, dass Tippfehler in der Nähe von Tastaturen auf Mobiltelefonen verhältnismäßig häufiger vorkommen. Während mobile Betriebssysteme in der Regel gut mit der Autokorrektur umgehen können, werden Tippfehler in der Nähe von Eingabefeldern natürlich nicht jedes Mal erkannt. Es sind weitere Studien zum Thema mobile Tippfehler erforderlich.
Chatterjee, Rahul, Anish Athayle, Devdatta Akhawe, Ari Juels, und Thomas Ristenpart. „PASSWORD TYPOS und wie man sie sicher korrigiert.“ PASSWORD TYPOS and How to Correct Them Securely – IEEE Conference Publication. August 18, 2016. Zugriff am 29. Oktober 2018. https://ieeexplore.ieee.org/abstract/document/7546536.
„Das Problem kann sich durch die verschiedenen Formfaktoren der Eingabegeräte noch verschärfen, z.B. durch die Touchtastaturen von Mobiltelefonen.“
2Gordon, Whitson. „Wie man diese lästigen Tippfehler beim Texten vermeidet“. Popular Science. April 05, 2018. Abgerufen am 29. Oktober 2018. https://www.popsci.com/prevent-texting-typos#page-2.„Handys haben kleine Bildschirme und wir haben große Daumen. Das macht uns von Natur aus anfälliger für Fehler, wenn wir mit unseren Wurstfingern auf einer Telefontastatur herumstochern.“
_____
Marcus Eagan ist ein Software-Ingenieur aus Palo Alto, Kalifornien.