Die wohltemperierte Suchanwendung – Präludium

Was ist falsch (oder muss behoben werden) mit Search and Why?

Bei Lucidworks sagen wir gerne „Suche ist die Killer-App“. In Wirklichkeit sind nicht alle Suchanwendungen tödlich, viele von ihnen sind schlecht, auch wenn leider viele von ihnen auf der besten Suchmaschine aller Zeiten basieren – Apache Solr. Und warum? Weil die Suche ein komplexes Problem ist und jede Suchanwendung anders ist. In diesem Blog geht es darum, wie Sie die Killer-Suchanwendung erstellen. Wenn Sie bereits schlau genug sind, um Solr – oder noch besser Lucidworks Fusion – zu verwenden, haben Sie die grundlegenden „Knochen“ bereits – alles, was Sie brauchen, ist eine kleine Spezialsoße, um die Magie zu entfalten. Hier sind einige Zutaten.

Bag of Words Search und wir Menschen – die grundlegende Trennung

Lassen Sie mich zunächst erklären, was wir Suchexperten das grundlegende Paradigma des „Wortsacksacks“ nennen: Alle Suchmaschinen arbeiten mit demselben grundlegenden Algorithmus – inverses Token-Mapping und Term-Density-Ranking. Das bedeutet, dass der Text zunächst in einzelne Begriffe oder „Token“ zerlegt und dann wieder auf Dokumente abgebildet wird. (Nebenbei bemerkt – Lucene macht das auf eine wirklich geniale Art und Weise). Obwohl Informationen über die Wortreihenfolge beibehalten und für Dinge wie Phrasensuche oder Proximity Boosting verwendet werden können, „denken“ Suchmaschinen immer noch gerne in Token. Dies ist jedoch nicht die Art und Weise, wie Menschen über das Suchproblem denken. Sie suchen nach bestimmten Dingen oder Konzepten und verwenden Wörter, um zu beschreiben, wonach sie suchen. Ohne Hilfe behandelt die Suchmaschine die Eingabe wie ein großes boolesches ODER und liefert Dokumente, die alle oder einige der Wörter enthalten, und ordnet sie danach ein, wie oft diese Wörter (oder ihre Synonyme) in bestimmten Dokumenten vorkommen. Wir Suchexperten nennen dies eine „Bag-of-Words“-Suche, denn es wird ein Beutel mit Wörtern (die Abfrage) mit einem viel größeren Beutel (dem Index) verglichen und eine ausgeklügelte Matrixmathematik durchgeführt, um die „besten“ Treffer zu finden. Das ist nicht perfekt, aber viel besser als die reine Suche nach Zeichenkettenmustern, wie sie in relationalen Datenbanken verwendet wird (z.B. „zeige mir Datensätze %LIKE% foobar“), die manchmal nicht zwischen „Suche“ und „Recherche“ unterscheiden können (wahre Geschichte) und im Vergleich zur invertierten Indexsuche schmerzhaft langsam sein können.

Das bringt mich zu den Algorithmen für das Relevanz-Ranking – die so genannte „geheime Soße“ aus der Zeit, als die Anbieter-Maschinen oder „Vengines“ die Welt beherrschten – und für den Fall, dass Sie nicht aufgepasst haben, diese Tage sind schnell vorbei! „Kaufen Sie meine Suchmaschine, denn UNSER Algorithmus für das Relevanz-Ranking ist der BESTE IN DER KLASSE, PERIOD. Sie fragen, wie er funktioniert? Tut mir leid, das könnte ich Ihnen sagen, aber dann müsste ich Sie erschießen!“ (Was fast immer Blödsinn ist, es sei denn, der Verkäufer hat einen Doktortitel in Mathematik, was bei den meisten nicht der Fall ist – glauben Sie mir – also war es wirklich nur eine Vernebelung) Aber entschuldigen Sie die Abschweifung – mit einem Wort – Blödsinn – sie funktionieren alle ungefähr gleich: TF/IDF (Ah! aber WIR verwenden eine hyperbolische Kosinusfunktion oder Haversinus und nicht die umständliche cos()-Funktion, die alle unsere Konkurrenten verwenden – denken wir!) Und sorry Google, Page Rank funktioniert nur gut, wenn Sie riesige Hyperlink-Matrizen wie das WWW zu verarbeiten haben (oder sollte ich sagen „Google-esque“? – denn der Name Google leitet sich von „googol“ ab, was 10 hoch 100 ist – eine wahnsinnig gigantische Zahl, die einen gehörigen Respekt verdient! – wenn Moore’s Law sich DIESER Zahl nähert … heilige Scheiße – aber bis dahin werde ich wahrscheinlich tot sein, aber bei der Geschwindigkeit, mit der es läuft, vielleicht auch nicht … und wenn ich ein Googolaire wäre – könnte niemand auf dem Planeten ohne meine Zustimmung das Bett verlassen).

Aber ich schweife wieder ab. Sobald Sie in den Bereich der Unternehmenssuche vorgedrungen sind, in dem die Verlinkungsstatistiken im Grunde genommen gleich Null sind, mussten Sie sich mit dem Rest von uns abmühen – vor allem, weil Sie Ihre IP in eine hübsche Box gesperrt haben und uns nicht daran herumpfuschen lassen (und wir werden Ihnen bei diesen Toastern ernsthaft in den Hintern treten, denn selbst Sie CANNOT Suche nach Schrumpffolie! – Ich meine, da Sie niemanden in Ihre „Geräte“ lassen, gilt das auch für die Recycler?). Danke für den gelegentlichen Augenschmaus – Hut ab vor Ihrem Grafikteam – die Suche mag zwar immer noch ätzend sein, aber wenigstens habe ich etwas Unterhaltung, vor allem an Feiertagen oder an einem historischen Tag, von dem ich noch nichts wusste. (Aber nur für den Fall, dass jemand von Google diesen Beitrag sieht und ich immer einen Job dort wollen – die Google Websuche IST verdammt genial und wird immer besser – sie ist jetzt schon seit über einem Jahrzehnt meine Startseite – noch bevor „Google“ ein beliebtes Verb wurde – aber dazu später mehr. Ich meine ernsthaft, wo wären wir heute ohne Google, Wikipedia und Smartphones? Ich für meinen Teil möchte nicht mehr zurückkehren. Ich habe www.google.com mehr als fünf oder sechs Mal benutzt, während ich diesen Blog geschrieben habe, nur um sicherzugehen, dass ich nichts falsch gemacht habe. Und um hier objektiv zu sein: Ja, sogar die Google-Suche ist gelegentlich mies, und das liegt daran, dass sie im Grunde genommen ein Bag-of-Words-Paradigma verwendet, wie alle anderen auch, und dieses Problem ist besonders ausgeprägt, wenn Sie mehr als einen Suchbegriff verwenden. Und selbst der beste Algorithmus für das Relevanz-Ranking kann nicht über die grundsätzliche Unstimmigkeit hinwegtäuschen, die bei der Bag-of-Words-Suche häufig auftritt – bestenfalls ist es Lippenstift auf einem Schwein (sorry Schweine, vielleicht bekommt ihr im nächsten Leben mehr Respekt …).

Die Suche ist also ein schwieriges Problem – aber ich glaube, dass zu viele Leute denken, dass es ein gelöstes Problem ist (vor allem dank der wirklich erstaunlichen Google Websuche – noch einmal, weiter so, Jungs, kein Scherz, großartig! – und für den Rest der Welt, entschuldigen Sie bitte, wenn ich in diesem Blog oft den Begriff Google verwende – ich versuche nur, meine TF hier zu erhöhen, so wie die personalisierte Arbeitsplatzsicherheit bei SEO – man muss ja die Hypothek bezahlen). Aber es ist Zeit für einen Realitätscheck: Die Suche ist kein gelöstes Problem und wird es wahrscheinlich auch nie sein – weil die Suchmaschine allein mit den von ihr verwendeten Algorithmen das Problem nicht allein lösen kann. Wir müssen ihr etwas helfen. Google wird vor allem deshalb immer besser, weil sie es sich leisten können, ihr viel Hilfe zu geben (letzte Google-Referenz, ich schwöre). Wenn Sie also über ein solches Budget verfügen, brauchen Sie den Rest dieses Artikels wahrscheinlich nicht zu lesen, da er sich darauf konzentriert, was mit einem geringen(er?) Budget getan werden kann, um das Problem der Bag-of-Words-Suche zu lösen. Mit anderen Worten: Techniken, die keine MapReduce-Jobs auf LKW-Ladungen von Server-Blades erfordern – oder Hadoop für den Rest von uns, die wir nicht für Brin und Page Inc. arbeiten (noch? Ich bin übrigens bei LinkedIn, nicht bei Facebook – sorry Mark) – vor allem in diesem coolen Büro in Mountain View (ist das schon eines der Acht Weltwunder der Neuzeit? Ich habe die Filmtrailer gesehen, aber vielleicht kann ich ja eines Tages eine persönliche Führung bekommen…).

Aber zurück zu unserer nicht mehr nur-Hobbyisten-und-Träumer-Ecke – noch einmal vielen Dank, Doug, du bist ein Mann! – Lang lebe Hadoop – und Open Source, verdammt noch mal! (aber nur der Fairness halber – muss ich Mama? … OK, OK und oh ja, um meine Jobaussichten am Leben zu erhalten, richtig – es gibt eine Menge guter Open Source, die von den G-Männern gespendet wurde – also danke, dass Sie auch bei uns mitspielen! Und sie haben veröffentlicht, wie MapReduce und BigTable funktionieren, was Doug sicher sehr zu schätzen wusste, während sein Kind mit dem Plüschtier spielte, dessen Namen wir jetzt alle kennen).

Semantische Suche – Was ist das?

Der Hype um dieses Spiel ist schon seit einer ganzen Weile im Tal der Enttäuschung stecken geblieben. Nicht, weil es eine schlechte Idee ist (das ist es nicht), sondern weil es WIRKLICH schwer ist, gut zu sein. Aber letztendlich geht es um den Kern des Problems – die Suche ist ein semantisches Problem und einer der Gründe, warum Suchmaschinen so wenig Erfolg haben, ist, dass sie nicht auf der semantischen Ebene arbeiten – tatsächlich haben die grundlegenden Suchalgorithmen, die wir alle kennen und lieben, absolut keinen blassen Schimmer von Semantik! Wenn man also bedenkt, dass ihr Verständnis von Bedeutung und Nuancen in der Sprache im Grunde NADA ist, haben wir a) noch einen langen Weg vor uns, aber b) kann es einen großen Unterschied machen, wenn wir auch nur ein kleines bisschen semantisches Bewusstsein in den Prozess einbringen (das ist kurz gesagt mein Elevator Pitch für diesen Blog – und wo wir gerade von Elevator Speeches sprechen, ich verwende das ‚G‘-Wort oft, um den Leuten zu erklären, was ich mache – dann verstehen sie es).

Ein (sehr) oberflächliches Eintauchen in die Linguistik – Syntax und Semantik

Kontext-Kontext-Kontext – Menschen bringen ein kontextbezogenes Verständnis in die Suchinteraktion ein, weil wir wissen, was Wörter und Ausdrücke bedeuten und wie sie in der Sprache funktionieren (d.h. Substantive, Verben und wann ein Wort das eine und wann das andere ist) und wir „wissen Dinge“, die uns bei der Disambiguierung helfen. Unterm Strich sprechen Menschen und Suchmaschinen also nicht dieselbe „Sprache“. Wir brauchen eine intelligente Übersetzungsschicht, die der Suchmaschine hilft, auf das zu reagieren, was wir wollen, und nicht auf die Worte, mit denen wir es beschreiben.

Ein wirklich gutes Beispiel dafür ist die unterschiedliche Semantik, die in der booleschen Logik und der Straßensprache verwendet wird. Dank des großen Mathematikers George Boole, nach dem die Boolesche Logik benannt ist, wissen wir Computerfreaks, was die Begriffe „UND“ und „ODER“ bedeuten – oder wissen wir das wirklich? Es stellt sich heraus, dass diese Wörter im allgemeinen, nicht-mathematischen Gebrauch nicht immer den booleschen Konventionen folgen – es kommt auf den Kontext an. Wenn ich mir Hemden in mehreren Farben gleichzeitig ansehen möchte, bitte ich den Verkäufer nicht, mir „rote oder blaue Hemden zu zeigen“, denn er oder sie wird dann fragen: „OK, welches wollen Sie sehen, rot oder blau?“ Aber wenn ich sage: „Zeigen Sie mir rote und blaue Hemden“, wird er oder sie (oder meine Website, wenn sie diesen Kontext versteht) beide anzeigen. Wenn ich das mit einer Suchmaschine machen würde, bekäme ich die gefürchteten NULL Ergebnisse, weil keine Hemden (zumindest keine einfarbigen) sowohl rot als auch blau sind. „Und“ bedeutet hier also wirklich „oder“ im booleschen Sinne. Das ist einer der Gründe, warum wir uns in diesem Fall normalerweise zurückhalten, indem wir „und“ und „oder“ zu Stoppwörtern machen, denn während sie im booleschen Sinne eindeutig sind, ist das im Sprachgebrauch nicht der Fall. Es hängt davon ab, ob sich die Auswahlmöglichkeiten gegenseitig ausschließen oder nicht – einfarbige Farben sind es, Produkttypen sind es „zeige mir Hemden und Hosen“, Orte sind es „zeige mir Hotels in Detroit und Ann Arbor“, andere Dinge sind es nicht, wie z.B. „zeige mir große und schnelle und leistungsstarke und spritsparende Autos“ – dies ist ein boolesches Verwendungsmuster, aber es kann NULL Ergebnisse liefern, es sei denn, wir lassen das letzte Kriterium weg (oder nehmen Tesla in unseren Suchindex auf), aber das ist sicherlich nicht die Schuld der Suchmaschine – manchmal sprechen NULL Ergebnisse die Wahrheit!

Traditionelle Methoden zur Bewältigung des „Problems“:

Ich möchte zunächst die Dinge auflisten, die wir alle kennen (oder kennen sollten), um sie aus dem Weg zu räumen. Es handelt sich dabei um bewährte Methoden zur Verbesserung der Wortsack-Suche, und ich möchte ein wenig über jede von ihnen sagen, bevor ich versuche, etwas Neues und Innovatives zu sagen – oder, falls das nicht möglich ist, einige brillante, aufregende neue Ableitungen dieser Grundideen.

Best Bets – Die Bag-Of-Words (BOW)-Suche wird diese Frage nie richtig beantworten können, also lassen Sie uns die Antwort einfach hart kodieren und damit fertig sein – ich weiß genau, was Sie wollen, also gebe ich Ihnen das. Jedermanns Lieblingsbeispiel ist „Holiday Schedule“ (Apache Solr nennt dies die QueryElevationComponent, falls Sie sich wundern sollten). Im Grunde laden wir Java-Programmierer eine HashMap (oder ein Dictionary, wenn Sie ein Python-, Perl-, Ruby- oder C#-Typ sind), die Suchbegriffe mit URLs verknüpft, und machen Feierabend. (Beachten Sie, dass ich, wenn ich „Jungs“ sage – wie in meinem Aufruf an die Lakaien von Larry und Sergey – keine Angst habe, sexistisch zu sein, aber wenn ich die Einzahl verwende, muss ich darauf achten, das „schöne Geschlecht“, wie man es früher nannte, nicht zu beleidigen, denn wenn man einer der „Jungs“ ist, sind Anmut und Charme keine geschätzten Eigenschaften).

Synonyme – Ah! Jetzt geht es ans Eingemachte. Das Hinzufügen einer Synonymliste – und deren kontinuierliche Pflege – kann einen großen Unterschied machen, aber was ist ein „Synonym“? Sprachlich gesehen ist es ein Wort oder ein Satz, der die gleiche Bedeutung wie ein anderes Wort oder ein anderer Satz hat. Ich werde hier nicht in die Tiefe gehen, aber es genügt zu sagen, dass jemand mit einem Doktortitel in Linguistik Ihnen viel mehr darüber sagen kann, was „Synonym“ wirklich bedeutet und was nicht, und dass er wahrscheinlich mit meiner Straßendefinition nicht einverstanden wäre. Aber lassen Sie uns trotzdem weitermachen (Sie wissen natürlich, wofür PhD wirklich steht, nicht wahr?). Wir verwenden Synonymlisten, um Suchprobleme zu lösen, aber manchmal ist die Art und Weise, wie wir sie verwenden, ein noch ungeheuerlicherer Verstoß gegen die offizielle höher und tiefer gestapelte Definition – (sehen Sie auf Wikipedia nach, wenn Sie neugierig sind – und ja, ich habe zumindest einmal gespendet). Ich werde mehr dazu sagen, wenn ich später über Autophrasierung spreche, und das wird uns zum Kern der Frage bringen, wo Syntax und Semantik eine Rolle spielen.

Stammbildung, Lemmatisierung – Dies ist ein weiteres sehr wertvolles Instrument in unserer Trickkiste, aber der Teufel steckt hier im Detail. Bei beiden Verfahren wird die Stammform eines Wortes (der so genannte „Stamm“ oder das „Lemma“) identifiziert und darauf normalisiert, so dass der Index unabhängig von Plural, Possessiv oder Zeitform durchsucht werden kann. Stemming ist ein algorithmischer Ansatz, der gut mit gängigen Wortformen zurechtkommt. Problematisch wird es, wenn wir es mit Idiomen zu tun haben (Maus/Mäuse – Mungo/Mongeese?) – wir brauchen also auch einen Ansatz für diese Randfälle. Ein weiterer interessanter Aspekt ist die Beziehung zwischen dem von Ihnen verwendeten Stemming-Algorithmus (Lucene-Solr bietet Ihnen hier viele Optionen), der Aggressivität des Algorithmus und der umgekehrten Auswirkung auf die primären Metriken der Suchgüte, Präzision und Recall. Eine wirklich hervorragende Erörterung dieses Phänomens finden Sie in Trey Graingers und Timothy Potters großartigem Buch „Solr in Action“ – (Schauen Sie es sich auf Amazon.com an – ich bin stolz darauf, dass ich die erste und immer noch beliebteste Rezension geschrieben habe, und ich habe jedes verdammte Wort ernst gemeint – aber Trey, Tim, wenn Sie das lesen, wo ist mein Schmiergeldscheck? Meine Güte, Jungs, ladet mich doch wenigstens auf ein Bier im Revolution ein, verdammt noch mal!)

Taxonomie / Ontologie – Jetzt kommen wir zu den schwierigen Themen. Hier leben die Anbieter von semantischer Suche, denn es ist wirklich leicht zu verkaufen, aber wirklich SCHWER zu machen – also a) kann ich Sie davon überzeugen, dass Sie es wirklich brauchen und b) müssen Sie mir viel Geld zahlen, weil – nun ja, es ist eine Menge Arbeit, die Sie nicht machen wollen. Ich nenne diese Dinge „Wissensgraphen“, weil sie eine Möglichkeit sind, Wissen in einer Datenstruktur darzustellen. Als ich vorhin darüber sprach, dass Benutzer etwas über Sprache „wissen“ und eine Reihe von Fakten gesammelt haben, die sie bei der Suche nutzen können, lag das daran, dass sie (wir?) einen eingebauten Wissensgraphen haben, den wir unser Gehirn nennen. Ein gutes Beispiel für einen Wissenskontext ist ein „Fill-in-the-Lanks“-Spiel zu dem Satz „BLANK war Moonwalker“. Wenn ich BLANK durch „Michael Jackson“ (oder eigentlich James Brown, der diese raffinierte Bewegung machte, bevor MJ geboren wurde) ersetze, bekomme ich ein geistiges Bild, wenn ich „Neil Armstrong“ ersetze, bekomme ich ein anderes. Aber was ist, wenn ich „Harrison Schmitt“, „Dave Scott“ oder „Edgar Mitchell“ ersetze? Welches Bild Sie bekommen, hängt davon ab, ob Sie wissen, dass diese Personen Apollo-Astronauten waren, die nach Neil Armstrong den Mond betreten haben. Wenn Sie das nicht wüssten, würden Sie wahrscheinlich das populärere Bild von James Brown/Michael Jackson erhalten (obwohl die anderen Typen alle weiß sind, so dass es wahrscheinlich ein komisches Bild wäre).

Ich werde später noch mehr darüber sagen, wie selbst eine kleine Taxonomie eine echte Hilfe sein kann, insbesondere im eCommerce, wo wir den lexikalischen Kontext stark einschränken können. Und das ist wirklich nicht schwer, wenn Sie einige gute Faustregeln befolgen können. Es ist nur schwer, dies auf umfassende Weise zu tun (die Wartung ist hier ein echtes Problem) – aber manchmal müssen Sie nicht umfassend sein – jede Verbesserung der Präzision ist ein Gewinn. Wie wir sagen: Suchanwendungen sind nie fertig.

Maschinelles Lernen – halbautomatische Klassifizierung: Dies ist eine weitere Technik, die schon seit einiger Zeit bekannt ist. Sie wird häufig verwendet und bildet sogar die Grundlage für den Namen eines der alten Suchmaschinenanbieter Autonomy, der nach der Übernahme von Verity nun im HP-Metroplex zusammen mit den Leuten von Ross Perot untergebracht ist (Nebenbei bemerkt – einer der Gründe, warum wir die Ära der Vengine verlassen und in die Ära der Open Source Dominanz bei der Suche Markt ist, dass alle alten Suchanbieter von den Megakonzernen Microsoft, Oracle, IBM, Hewlett-Packard aufgekauft wurden, wo sie innerhalb ihres eigenen Unternehmens mit all dem anderen Zeug konkurrieren müssen, das diese Unternehmen verkaufen, so dass es viel schwieriger ist, technischen Support am Telefon zu bekommen – und nicht nur das, Apache Solr tritt einfach alle von ihnen in den Hintern – und das zu einem viel besseren Preispunkt! Mit anderen Worten: Wenn wir Solr einsetzen – vorzugsweise mit Lucidworks Fusion anstelle von Endeca – und hier ist die gebührenfreie Telefonnummer, unter der Sie anrufen können, und die Operatoren stehen bereit – dann tragen wir nicht dazu bei, die Jachten des anderen Mega-Reichen namens Larry zu bezahlen! Und ganz gleich, wie viel Geld diese Typen erwerben, sie können nicht unseren Motor kaufen, nur um ihn abzuschalten – wie Autonomy es mit Verity getan hat – denn er gehört UNS, dem Volk – nein, ich bin kein Kommunist, aber ich habe kürzlich eine großartige Biografie über J. Robert Oppenheimer gelesen – der auch keiner war).

Puh! Das tut mir leid. Wovon habe ich denn gesprochen? … Ach ja. Bei den Ansätzen des maschinellen Lernens geht es im Wesentlichen darum, mit Hilfe von mathematischen „Vektor“-Verarbeitungsmaschinen Muster in großen Textmengen zu finden und diese Muster mit Kategorien oder Themen zu verknüpfen. Es wird sowohl für die Extraktion von Entitäten als auch für die konzeptionelle Markierung verwendet, die interessanterweise die entgegengesetzten Seiten derselben Medaille sind (mehr dazu später). Der Prozess der „Vektorisierung“ ist hier wichtig und um Ihnen etwas Kontext zu geben, ist der TF/IDF-Algorithmus, der für das Relevanz-Ranking verwendet wird – Termfrequenz über inverse Dokumenthäufigkeit, wenn Sie es wissen müssen – eine Art Vektor – eine Zahl mit sowohl Größe als auch Richtung in einem lexikalischen n-dimensionalen Hyperraum (gulp! beam me up Scotty) – weil er Textdaten (Token und ihre Häufigkeit in einem Dokument) in numerische Matrizen umwandelt, die von den Algorithmen des maschinellen Lernens verwendet werden können, um interessante Muster zu finden. In der Welt von Lucene wird TF/IDF als Ähnlichkeitsalgorithmus bezeichnet, was bedeutet, dass er die Dokumente findet, die der Abfrage am ähnlichsten sind, aber Ähnlichkeit kann auf viele kreative Arten genutzt werden, wie wir noch sehen werden. Später werde ich eine relativ kostengünstige Technik zeigen, die ursprünglich in dem wunderbaren Buch „Taming Text“ von Ingersoll, Morton und Farris veröffentlicht wurde (Grant Ingersoll ist zufällig mein Chef bei Lucidworks, aber meine schamlose Anpreisung hier ändert nichts an der Tatsache, dass TT ein wirklich großartiges Buch ist …. aber wie gesagt, wir müssen die Hypothek bezahlen).

Maschinelles Lernen ist nützlich, weil es herausfinden kann, was passiert ist und was mit was zusammenhängt, aber es weiß nicht viel darüber, wie oder warum Dinge passieren, denn im Kern ist es ein statistischer Bag-of-Words-Zahlenbrecher. An dieser Stelle kommen Wissensdatenbanken wieder ins Spiel (und andere Dinge wie NLP). Stellen Sie sich vor, Sie würden Nachrichten und Wetterberichte auswerten und zu dem Schluss kommen, dass „Katrina“ und „Sandy“ etwas mit „Wirbelstürmen“ zu tun haben und uns eine Menge Geld kosten. Der Einsatz von Techniken des maschinellen Lernens zur Erstellung von Wissensgraphen ist eine wirklich gute Anwendung dieser Technologie. Die Wissensgraphen können dann für die semantische Suche verwendet werden – vielleicht mit ein wenig manueller Nachbearbeitung, um die peinlichen Dinge zu entfernen (wie z.B. die Annahme, dass „Lincoln Junior High School“ eine Person ist – eine weitere wahre Geschichte). Wenn ich mich recht erinnere, hat Watson (nein, nicht die Conan Doyle-Figur) genau das getan, als er bei Jeopardy unterlag (siehe unten). Er hat alles gelesen oder „verschluckt“, was man ihm unterschieben konnte (Enzyklopädien usw.). – aber nicht die Wikipedia-Seite, die Steven Colbert zweifellos absichtlich falsch bearbeitet hat) und erstellte einen Wissensgraphen, mit dem er uns Menschen einen gehörigen Schrecken einjagen konnte.

NLP/AI : Ich fasse die Verarbeitung natürlicher Sprache und künstliche Intelligenz zusammen – sie sind größtenteils noch ein Wunschtraum, aber es gibt einige Erfolge in diesem Bereich (Siri? – dazu bitte ich um Handzeichen…). Im Grunde geht es darum, dass der Computer die Sprache wie ein Mensch analysiert, die übertragenen konzeptionellen Strukturen versteht (was auch immer das bedeutet) und dann wie ein Mensch reagiert. Stellen Sie sich Majel Barrett als Star Trek-Computerstimme vor, die eine von Mr. Data gestellte Suchfrage beantwortet – nein, überprüfen Sie das, Mr. Worf (und es wird „dayta“ und nicht „dahta“ ausgesprochen, zumindest von allen echten Wissenschaftlern, die ich kenne – daher ist meine innere Reaktion auf jemanden, der sich selbst als „Dahta Scientist“ bezeichnet, „Das glaube ich nicht“ – auch bei Data, der mit dem Computer spricht – ist das nicht einfach ein ziemlich ineffizienter SOA-Mechanismus? Tut mir leid, ich höre jetzt auf).

Die berühmteste Aussage in der Welt der künstlichen Intelligenz ist der „Turing-Test“, benannt nach Alan Turing – dessen Beiträge zu unserer Wissenschaft ebenso wichtig sind wie die von John Von Neumann, Grace Hopper oder jedem anderen, mit dem ich versuchen könnte, Sie zu beeindrucken -, bei dem eine Person feststellen muss, ob sie mit einer anderen Person oder einem Computer spricht, indem sie ihm(?) eine Reihe von Fragen stellt (z.B. ist es Majels Computerstimme oder Lwaxana Troi?). Wenn sie es nicht erkennen können, dann passen wir. Im Großen und Ganzen fallen wir Informatiker immer noch durch, aber die Jungs bei IBM, die Watson und Deep Blue entwickelt haben, würden sich wahrscheinlich über diesen Punkt aufregen. Muss ich noch mehr darüber sagen, wie mächtig diese Techniken sein können? Versuchen Sie doch einfach, Watson bei IBM zu kaufen – ich glaube nicht, dass es auf deren Download-Seite eine eingeschweißte Version gibt (vielleicht liegt das daran, dass man auf deren Seite nichts finden kann, aber das ist eine andere Geschichte – ich fange hier ohnehin schon zu viele Kämpfe an – denn einer der coolen Jobs, die ich einmal auf dem Radar hatte, ist „Watson Fellow“, also werde ich versuchen, auch in dieser Richtung keine Brücken zu schlagen).

Watson hat Jeopardy mit einer Menge cleverer Software wie UIMA (Open SOURCE Baby!) gewonnen, die auf ein paar LKW-Ladungen von Server-Blades lief, um die Antwortzeit zu verkürzen, so dass Watson als Erster einsteigen konnte (dieser Teil scheint einfach nicht fair zu sein, aber Sie müssen zugeben, dass es eine wirklich tolle Demonstration von parallelen Rechenleistungen war – also OK, ich verstehe es, es war eine Live-Demo, niemand wurde verletzt).

Wenn Sie also all die oben genannten Dinge tun, ist Ihre Suchanwendung wahrscheinlich verdammt gut – d.h. sie ist bereits tödlich. Wenn Sie aber noch mehr tun oder mit weniger auskommen wollen, sollten Sie diesen Fledermaus-Kanal im Auge behalten (ich habe tatsächlich einmal in meinem Leben über Fledermäuse geforscht, also darf ich diese abgedroschene TV-Referenz wieder verwenden). In der nächsten Ausgabe des Fledermauskanals werde ich einige interessante Techniken vorstellen, mit denen Sie es mit den großen Jungs aufnehmen können, ohne über die Ressourcen eines der Jungs namens Larry, Mr. Bill, Mark oder der Firma, die die beiden Jungs namens Steve gegründet haben, verfügen zu müssen (leider gibt es nur noch ein überlebendes Mitglied dieses dynamischen Duos, aber er ist wahrscheinlich mein größter Held von allen und über den ich nur Gutes zu sagen habe – nachdem ich die akademische Welt verlassen hatte, habe ich meine ersten Schritte in der professionellen Softwarebranche gemacht, indem ich Mathespiele für Kinder auf dem originalen Mac OS geschrieben habe – also auf dich Woz, lebe lang und in Frieden, Kumpel!)

Da Segno al Fine

Nun, danke, dass Sie es mit mir ausgehalten haben und bis zum Ende dieses Hirnschisses / dieser Hetzrede gekommen sind – aber jetzt, wo ich mir einiges von der Seele geredet habe, werde ich das nächste Mal vielleicht etwas … wohltemperierter sein, aber wenn ich es mir recht überlege … Naaahhhhh!!! Ein mürrischer alter Griesgram zu sein, macht einfach zu viel Spaß! Viel Spaß beim Suchen 🙂 Aber es wird Sie nicht überraschen, dass ich den früheren, bösen Mr. Scrooge bevorzuge. Ich fand ihn viel cooler, also überlasse ich ihm das letzte Wort – „Bah! Humbug!“

Wie ein B2B-Vertriebsriese die intelligente Suche einsetzt, um Inflation, Tarife und 10.000+ tägliche Abfragen zu bewältigen

Lernen Sie Ryan Finley kennen: Ein 17-jähriger Suchveteran, der die Unternehmenssuche zur...

4 bewährte KI-Suchlösungen für die Tarifverwaltung

Entdecken Sie, wie KI-Suchlösungen für das Tarifmanagement Einzelhändlern helfen, Margen und Kundenzufriedenheit...

KI-Agenten dominieren den Einkauf. Ist Ihre Website auf die KI-gestützte Suche vorbereitet?

Generative KI-Agenten wie ChatGPT definieren die Produktsuche neu. Erfahren Sie, wie Sie...