Wo sind all die Bibliothekare hin?

Vergewissern Sie sich, dass die Suchplattform sich mit den üblichen Schreckensmeldungen befasst.

Das habe ich irgendwo im Cyberspace gesehen:

„Ich hasse Leute, die den Unterschied zwischen „Ihr“ und „Sie“ nicht kennen. Sie sind so dumm!“

Sie haben wahrscheinlich schon genug von mir, aber das ist in Ordnung, denn ich habe auch genug von mir. Glauben Sie mir, Sie müssen nicht mit mir leben – ich schon. Sie denken vielleicht – Suche Curmudgeon-Typ? Er ist ein echter Trottel“. Das ist kein Argument. Aber wenn Sie bis hierher in den Blog vorgedrungen sind – d.h. wenn Sie über die Autoren-Tagline „By Search Curmudgeon“ hinausgekommen sind, ohne wegzuklicken (was an dieser Stelle einen Tweet mit einem Texting-ähnlichen Jargon wie ‚lol‘ und vielen Emojis ergeben könnte), dann bin ich vielleicht zu selbstkritisch.

Ich verdiene meinen Lebensunterhalt mit Computern, aber das heißt nicht, dass ich in diese verdammten Dinger verliebt bin. Ich meine, es erschreckt mich zu Tode, dass mein Auto jetzt im Wesentlichen ein Computer ist. Aus „Raid kills Bugs Dead“ könnte jetzt „Bugs kill People Dead“ werden. Je mehr Sie über Computer wissen, desto mehr werden Sie dieser Aussage zustimmen! Das erinnert mich an einen alten Internet-Witz, der damals zumindest halbwegs amüsant war, weil er sich in Wirklichkeit um Programmierer-Freaks wie mich drehte und nicht um Computer – und er war lächerlich. Er mag auch heute noch lustig sein – das müssen Sie selbst beurteilen – aber jetzt ist er auch wahr. Der Witz ging ungefähr so. Drei Ingenieure fahren in einem Auto, ein Elektroingenieur, ein Maschinenbauingenieur und ein Software-Ingenieur. Das Auto hat eine Panne und sie streiten sich darüber, was damit nicht stimmt. Der Elektroingenieur sagt: „Es muss an der Zündung liegen“, der Maschinenbauingenieur sagt: „Nein, es muss das Getriebe sein“ und der Software-Ingenieur sagt: „Warum steigen wir nicht einfach aus dem Auto aus und steigen dann wieder ein?“ Ich warte, bis das Lachen verklungen ist …

Wie dem auch sei, ich fuhr in meinem neuen Auto und irgendwie ging der Toter-Winkel-Warner offline (eine wirklich coole Innovation übrigens!). Ich musste mich auf die altmodische Art und Weise gegen mögliche Zwischenfälle auf der Fahrbahn wehren – ich musste tatsächlich hinter mich schauen, bevor ich die Spur wechseln konnte!!! OMG!!! Ich war ziemlich gestresst – ich meine, es ist ein brandneues Auto und jetzt muss ich es zum Händler zurückbringen, um herauszufinden, warum der Toter-Winkel-Warner nur ein paar tausend Meilen gehalten hat. Dann wurde mir klar, dass es sich um einen Software-Dummy handelt – vielleicht habe ich der Software keine Chance gegeben, sich zu laden, als ich versuchte, meine Freundin über das sprachaktivierte Bluetooth anzurufen (eine weitere tolle Sache), bevor das Spracherkennungssystem die Chance hatte, sich zu initialisieren … Als ich das Auto am nächsten Morgen wieder startete, war das System so gut wie neu, als wäre nichts passiert. (Der Curmudgeon hat eine Freundin?? Ja, die habe ich. <G>) Mit einem Softwarefehler im Warnsystem für den toten Winkel kann ich leben, aber was kann sonst noch schief gehen? Leider eine ganze Menge. Wenn Sie Ihr Auto für eine Rückrufaktion zum Händler bringen, wird dieser in den meisten Fällen einen neuen Software-Patch installieren – oder er könnte Ihnen den Weg ersparen und das tun, was Microsoft mit Ihrem PC zu Hause macht, nämlich das Betriebssystem Ihres Autocomputers aus der Ferne aktualisieren und neu starten, wenn es Ihnen am wenigsten passt, d.h. während Sie fahren. … Nein, so dumm sind sie (oder sollte es ‚ihre‘ heißen?) nicht… oder? „Es tut mir leid, Officer, es war nicht meine Schuld. Gerade als ich auf die Interstate auffuhr, hat Microsoft mein Auto neu gestartet.“

Aber genug von Autos, ich bin hier, um über (ach, Schimpfwort) suchbezogene Dinge zu sprechen. Aber das Thema steht fest – wir sind so begeistert von dem, was Computer für uns tun können, dass wir sie so viele Dinge tun lassen, wie wir uns vorstellen können – vor allem wirklich coole Dinge. Aber lassen Sie uns für einen Moment einen Schritt zurücktreten. Abgesehen von den Fehlern (wie die Armen werden sie uns immer begleiten), sind Computer in der Lage, (noch) alles zu tun, was wir von ihnen erwarten? Ich betone hier das Wort „wollen“, denn man kann nicht immer bekommen, was man will – danke Mick und Keith – denn wir sollten uns darauf konzentrieren, das zu bekommen, was wir von ihnen brauchen. Das sollten wir tun, wenn es A) zu mühsam oder zu überwältigend ist (oder wir einfach nur faul sind) und 2) wir wissen, dass der Computer das wirklich gut und schnell erledigen kann. Wir brauchen also eine Fallklausel in unserer Projektmanagement-Software, die besagt: „Ja – Computer können das wirklich gut“ und „Nein – Computer können das überhaupt nicht“, und lassen den Menschen die Arbeit machen. Technologisch gesehen ist es wichtig, an die Grenzen zu gehen, aber wir müssen auch vernünftig sein. Und Menschen wieder einzustellen ist besser für die Wirtschaft.

Ein weiteres Beispiel für das, wovon ich spreche: Haben Sie schon einmal gehört, wie jemand in sein Handy spricht, obwohl die „Person“, mit der er spricht, offensichtlich keine ist? Es geht oft ungefähr so:

„ja …. ja …. ja …. wiederholen Menü …. ja …. nein …. ja …. ja …. Ich weiß nicht …ähhh … SH*T … Kann ich jetzt bitte mit einem Menschen sprechen? … oh OK REPRÄSENTATIV!!“

Und da Programmierer in der Regel einen guten Sinn für Humor haben (das müssen sie auch, sonst würden sie verrückt werden) und Schimpfwörter in der Ausgabe des Spracherkennungssystems erkennen können, könnte der Computer unbemerkt von Ihnen – oder vielleicht auch unbemerkt, wenn er ganz unverschämt auf Lautsprecher gestellt wurde – geantwortet haben:

„Ich reagiere nicht auf Obszönitäten – bitte sagen Sie ‚Es tut mir leid‘ und wählen Sie dann eine Menüoption – und wenn Sie das noch einmal tun, rufe ich Ihre Mutter an.“

Aber wäre es nicht cool, wenn wir so etwas für uns selbst hätten, um unsere Anrufe zu kontrollieren, wie es Unternehmen tun? Wir könnten unsere App sagen lassen: „Bitte antworten Sie auf eine der folgenden Menüoptionen: 1 – Familie, 2 – Freund, 3 – Geschäftspartner, 4 – Arztpraxis, 5 – Inkassobüro, 6 – Rechtsanwalt/Telefonverkäufer/“Höflichkeitsanrufer“, 7 – Computer“. Wenn die Antwort 1, 2 oder 3 lautet, können wir Ihnen einige Sicherheitsfragen stellen, z. B. „Was habe ich mit dem Hund gemacht, als ich 3 war?“ (bei Familienmitgliedern) oder „Wo trinke ich am liebsten?“ (bei Freunden) oder „Was ist meine typische Starbucks-Bestellung?“ (Geschäftspartner). Bei 4 könnten wir fragen: „Wie lautet mein Geburtsdatum?“. Bei 5 und 6 können wir unsere App einfach „F*ck Off“ bzw. „Not Interested“ sagen lassen und auflegen. Ich bin mir nicht sicher, was zu tun ist, wenn unsere App von einem anderen Computer angerufen wird. Im schlimmsten Fall könnte dies zu einer unendlichen Rekursion führen, die unsere Handyrechnung in die Höhe treiben würde. („Tut mir leid, Verizon, Ihr automatischer Anrufbeantworter und meine persönliche Anrufbeantworter-App sind im letzten Monat 47 Mal in einer Endlosschleife hängen geblieben – nein, ich werde die $15.632,27 nicht bezahlen – schalten Sie das verdammte Ding einfach ab – ich wechsle zu T-Mobile.“)

Diese Computer-Telefonbeantworter sind inzwischen allgegenwärtig. Quizfrage: Wann haben Sie das letzte Mal mit einem Menschen gesprochen, als Sie bei einer Bank, einer Versicherung oder, ach was, eigentlich bei jedem Unternehmen angerufen haben? Das liegt daran, dass wir die meisten Mitarbeiter des Telefonsupports entlassen und durch die gleiche weibliche Roboterstimme ersetzt haben, die auch unsere GPS- und Bluetooth-Systeme im Auto verwenden. Ebenso haben wir in der Suchbranche die Bibliothekare entlassen und durch HP Autonomy IDOL ersetzt (dank mir jetzt allgemein als Autonomy IDLE bezeichnet – haha). Früher wurden diese Leute eingestellt, um anderen Mitarbeitern bei der Suche nach Informationen zu helfen. Sie waren Experten darin, Informationen aus Systemen mit undurchschaubaren Benutzeroberflächen und komplexen, geheimnisvollen Abfragesprachen (genauer gesagt: Abfrageprogrammiersprachen ) herauszuholen. Dann kam Google auf und alles änderte sich. Ah, wir brauchen diese Leute nicht mehr, wir können unsere Mitarbeiter einfach „googeln“ lassen. Das funktioniert so weit, wie es geht, aber im Unternehmen kommt man damit nicht sehr weit.

Aber ich sage NICHT, dass Suchsysteme immer noch so schlecht sind, dass sie nur von jemandem effektiv genutzt werden können, der einen Master in Bibliothekswissenschaft oder einen MLS-Abschluss hat – was auch für „More Literate Sh*t“ steht, um es in das Pantheon der Akronym-Witzumformulierungen einzureihen, die mit „BullSh*t“, „Bullsh*t Artist“, „Master Bullsh*t Artist“, „More Sh*t“ und „Piled Higher and Deeper“ (meiner Wenigkeit) begannen. Weit gefehlt. Wir haben in dieser Hinsicht einen weiten Weg zurückgelegt, denn unsere Apps sind inzwischen Goggle-isiert und die obskure „Erweiterte Suche“ gehört weitgehend der Vergangenheit an. Was ich damit sagen will, ist, dass die Systeme noch besser werden können, wenn wir einige der Bibliothekare (auf jeden Fall Marian, aber nicht Conan den Bibliothekar ) zurückholen, damit sie uns helfen, sie intelligenter zu machen – denn meiner Meinung nach (beachten Sie, dass ich nicht ‚bescheiden‘ gesagt habe, denn das ist eine Sache, die der Curmudgeon definitiv NICHT ist) – gibt es immer noch einige Dinge, bei denen Computer in der Welt der Suche versagen und die von Armeen von Softwareentwicklern in absehbarer Zeit nicht vollständig gelöst werden können. Vielleicht werden sie es irgendwann, aber in der Zwischenzeit gibt es noch Arbeit für Menschen. Und diese Arbeit besteht darin, dem Computer zu helfen, semantische Zusammenhänge zu verstehen, indem er sich mit lexikalischen Wissensdatenbanken beschäftigt. Ich bin ein Humanist, ob Sie es glauben oder nicht – ich mag Menschen, auch wenn sie mich manchmal nicht mögen – ich habe mir meinen Spitznamen ‚Griesgram‘ verdient, wissen Sie.

Ich weiß, dass „Taxonomie“ für viele ein Schimpfwort ist, vor allem für die Leute, die immer sagen: „Aber das ist zu langsam und skaliert nicht, nyah, nyah, die Hose brennt“ – als ob Skalierung und Geschwindigkeit alles wären. Ihre Systeme liefern vielleicht beschissene Antworten – aber sie liefern sie wirklich schnell und können dies in enormem Umfang tun. Jetzt müssen wir nicht mehr eine Tankstelle aufsuchen, um nach dem Weg zu fragen und mit einem Tankwart sprechen, der kaum Englisch spricht – wir können mit dem GPS unseres Autocomputers sprechen, der genauso gut Englisch versteht. Das mag aufschlussreicher sein oder nicht, wenn Sie sich verfahren haben, aber es ist zweifellos ein viel schnellerer Weg, um nicht hilfreiche Informationen zu erhalten.

Worauf ich eigentlich hinaus will, ist, dass Sie für jede 5 oder 6 Softwareentwickler, die Sie einstellen, eine Person einstellen, deren Aufgabe es ist, Datensätze zu erstellen oder zu finden, die die Softwareentwickler verwenden können, um intelligentere Systeme zu bauen. Es gibt viele wirklich gute Open-Source-Wissensdatenbanken – insbesondere im Gesundheitswesen – aber es kostet Zeit und Mühe, sie 1) zu finden und C) für den aktuellen Zweck zu integrieren. Taxonomien oder Ontologien, Synonymlisten, Phrasenlisten, Stoppwortlisten, vorberechnete Word2Vec-Modelle, DBPedia, Open Calais usw. usw. usw. Aber die Zeit, die Sie in diese Arbeit investieren, ist es allemal wert. Ihre Benutzer werden es Ihnen danken, glauben Sie mir. Sie müssen hier nicht den Ozean zum Kochen bringen. Je mehr semantisches Wissen dem Computer zur Verfügung steht, desto besser kann er zuhören und mit Menschen sprechen (auch ohne Emojis). Fangen Sie also klein an und erweitern Sie Ihr Vokabular mit mehr Enthusiasmus, wenn Sie sehen, dass Ihre Suchrelevanz in die Höhe schießt oder dass Ihre Klickraten sehr respektabel (und vor allem profitabel!) werden.

Ein Beispiel. Ich weiß nicht, wie oft ich mit einem Kunden zu tun hatte, der mit der Relevanz seiner Solr-Suchmaschine unzufrieden war und feststellte, dass seine synonyms.txt-Datei nur weiß, dass „Television“ == TV und dass „fooaaa“, „baraaa“ und „bazaaa“ dasselbe bedeuten. Wenn Sie diesen Witz nicht verstehen, sehen Sie sich die Datei ’synonyms.txt‘ an, die mit Solr 6.2 ausgeliefert wird – und übrigens, was zum Teufel ist ein „pixma“? OK, es handelt sich um ein Canon Druckermodell – danke nochmals an Google! Vielleicht denkt der Kunde, dass „es einfach funktionieren sollte“, und zwar sofort nach dem Auspacken. Ja, wenn der Benutzer „aaafoo“ eingibt, gibt die Suchmaschine auch Dinge zurück, die „aaabar“ enthalten! Cool, oder? Für mich funktioniert das – kein Scherz, so teste ich auch den Suchcode – viele Dokumente mit dem Namen „Testdokument 42“, in denen „foo“, „bar“, „baz“ und „bat“ Schlüsselwörter sind. Apropos „foobar“, eine weitere Anekdote, die ich aus dem Film „Der Soldat James Ryan“ entnommen habe, ist, dass „foobar“ vom militärischen FUBAR abgeleitet ist, was für – ach, Sie wissen schon – aber ich habe schon mehr als genug Schimpfwörter für einen Blogbeitrag verwendet, also werde ich es bereinigen – „F*cked Up Beyond All Recognition“ steht. Und wenn Sie meinen letzten Blogeintrag gelesen haben, sollten Sie wissen, dass sich „foo“ auf „poo“ reimt – ich bin mir allerdings nicht sicher, welche Bedeutung diese Beobachtung hat. Vielleicht wollte der erste Programmierer, der damit etwas dokumentierte, eigentlich „fubar“ sagen, aber da Programmierer bekanntermaßen schlechte Rechtschreiber sind … Und glauben Sie mir, es gibt eine Menge „foobar“ (sic) Code da draußen – ich habe mehr als meinen Anteil gesehen. Vielleicht bin ich deshalb so ein Miesepeter.

Nein, Leute, die OOTB-Datei ’synonyms.txt‘, die mit Solr ausgeliefert wird, soll dokumentieren, wie man eine solche Datei schreibt – d.h. welche Syntax sie hat. Sie ist NICHT für die Verwendung in Produktionsanwendungen gedacht, aber überraschenderweise taucht sie dort viel zu oft auf. Und warum? Weil wir alle Bibliothekare entlassen haben, die wirklich verstehen, warum wir dieses Ding bearbeiten und pflegen müssen. Algorithmen für maschinelles Lernen können mit zwei Arten von Daten umgehen – Daten zur Analyse und Daten, die dem Algorithmus helfen, andere Daten zu analysieren. Ja, es gibt ein großes Skalierungsproblem bei Begriffen und Phrasen, aber es gibt bereits Vokabulare wie WordNet, die dieses Problem angehen, und einige sehr coole Software zur Extraktion von Entitäten, um Phrasen automatisch zu finden. Und die Skalierung ist relativ zu dem Bereich, in dem Sie tätig sind. WordNet kennt z.B. die Produktnamen oder den Fachjargon Ihres Unternehmens nicht (Google schon, weil es Ihre Website gecrawlt hat, aber diese Daten stehen möglicherweise nicht zum Verkauf). In der Zeit, die 14 Entwickler benötigen, um eine komplexe Unternehmensanwendung zu entwerfen, zu codieren, zu testen, zu debuggen, zu testen, zu debuggen, zu testen, neu zu entwerfen, neu zu codieren, zu testen, zu debuggen, zu testen, zu debuggen, zu testen und zu implementieren (puh!), können ein oder zwei Bibliothekare ein ziemlich komplettes Lexikon für das Unternehmen mit den wichtigen Phrasen, Stoppwörtern und Synonymen erstellen, das eine erstklassige Lucene Analyzer-Kette füttern oder ein paar geile Abfrageerweiterungen durchführen kann. Die Programmierer müssen in diesem Fall nicht einmal einen Finger rühren, denn vielleicht kennen einige von ihnen die ’synonyms.txt‘ noch gar nicht. Lassen Sie sie glauben, dass ihr magischer Code die Suchergebnisse verbessert hat.

Oder noch besser, lassen Sie sie eine „Taxonomie“ integrieren, was in manchen Kreisen ein Schimpfwort ist. Lassen Sie Ihre Bibliothekare es einfach „Lexikon“ oder „Vokabular“ nennen und niemand wird es bemerken.

Wir werden das Geheimnis einfach für uns behalten.

Quick Links