März 2, 2015 by Ted Sullivan

Gedanken zu „Suche vs. Entdeckung“

„Suchen vs. Entdecken“ ist eine gängige Dichotomie, die in Diskussionen über Suchtechnologien verwendet wird. Bei ersterem geht es darum, bestimmte Dinge zu finden, die entweder bekannt sind oder von denen man annimmt, dass sie existieren, und bei letzterem geht es darum, die Such-/Browse-Schnittstelle zu verwenden, um zu entdecken, welche Inhalte verfügbar sind. Eine einzelne Benutzersitzung kann beide „Agenden“ beinhalten, insbesondere wenn die Annahme eines Benutzers, dass ein bestimmter Inhalt existiert, nicht schnell durch das Auffinden des Inhalts überprüft wird. Die Auffindbarkeit wird beeinträchtigt, wenn es zu viele irrelevante oder verrauschte Treffer (False Positives) gibt, die die beabsichtigten Ergebnisse verdecken oder verschleiern. Dies geschieht, wenn Metadaten schlecht verwaltet werden, die Suchrelevanz schlecht abgestimmt ist oder wenn die Suchanfrage des Benutzers mehrdeutig ist und die Anwendung kein Feedback gibt (z. B. Autovervollständigung, Empfehlung oder meinten Sie), um sie zu verbessern.

Sichtbarkeit der Inhalte

Die Sichtbarkeit von Inhalten ist wichtig, da ein Dokument zunächst in der Ergebnismenge enthalten sein muss, um gefunden zu werden (natürlich), aber sie ist auch entscheidend für die Suche, insbesondere bei sehr großen Inhaltsmengen. Die Erfahrung der Benutzer hat gezeigt, dass eine facettierte Navigation eine der besten Möglichkeiten ist, diese Sichtbarkeit zu gewährleisten, insbesondere wenn sie Dimensionen enthält, die sich auf „Bekanntheit“ und „Verwandtschaft“ konzentrieren. Wenn ein Dokument jedoch nicht entsprechend gekennzeichnet ist, kann es für den Benutzer unsichtbar werden, sobald die Facette ausgewählt wird, in der es enthalten sein sollte (aber nicht ist). Datenqualität ist hier wirklich wichtig! (Mein Kollege Mark Bennett hat ein Data Quality Toolkit verfasst, das Ihnen dabei hilft. Die ehrwürdige Lucene Index Toolbox oder „Luke“, mit der Sie den Lucene-Index im Backend untersuchen können, ist ebenfalls sehr nützlich. Der LukeRequestHandler ist im Lieferumfang von Solr enthalten. ) Ohne entsprechende Metadaten hat die Suchmaschine keine Möglichkeit zu erkennen, was mit was zusammenhängt. Suchmaschinen sind in dieser Hinsicht nicht intelligent – die Intelligenz einer Suchanwendung ist in ihren Index eingebaut.

Suche und Kuratierung von Inhalten

Auffindbarkeit und Sichtbarkeit sind auch sehr wichtig, wenn die Suchanwendung als Werkzeug für die Kuratierung von Inhalten innerhalb einer Organisation verwendet wird. Manchmal geht es bei der Suche darum, herauszufinden, ob etwas bereits erstellt wurde, als „Due Diligence“-Aktivität, bevor es erstellt wird. Daher ist die Redewendung „aus den Augen, aus dem Sinn“ wichtig, wenn Inhalte, die nicht gefunden werden können, dazu neigen, neu erstellt zu werden. Dies führt zu unnötiger Duplizierung, die nicht nur verschwenderisch, sondern auch kontraproduktiv für die Suche ist, da sie den Umfang des Repositorys vergrößert und die Möglichkeit einer Verschleierung durch Ähnlichkeit erhöht. Die nachträgliche Anwendung von Deduplizierungsprozessen ist ein Flickwerk – wir sollten das Auffinden von Dingen von vornherein erleichtern, damit wir später nicht noch mehr Arbeit haben, um das Chaos zu beseitigen. Außerdem müssen wir uns auf unsere Suchergebnisse verlassen können, so dass wir, wenn wir etwas nicht finden, davon ausgehen können, dass es nicht existiert – siehe meine Kommentare zu diesem Punkt in Einführung der automatischen Filterung von Suchanfragen. Bitte beachten Sie, dass dies immer ein schmaler Grat ist. In der Wissenschaft ist die Abwesenheit von Beweisen nicht gleichbedeutend mit der Abwesenheit von Beweisen – daher „Finding Bigfoot“! (Wenn sie jemals „Squatch“ finden, gibt es keine Sendung mehr – oder sie müssen den Titel in „Bigfoot gefunden!“ ändern. – was sehr populär wäre, aber auch keine Serie sein könnte! Schon gut, ich habe die Sendung nur einmal gesehen, um festzustellen, dass sie Bigfoot nicht wirklich „finden“ – daher der Zusatz ‚ing‘. Ich nehme an, dass „Searching for“ zu aussichtslos klingt, um auch nur einmal einzuschalten).

Auto-Klassifizierung Tuning

Die Technologie der automatischen Klassifizierung ist ein potenzielles Heilmittel in allen oben genannten Fällen, kann das Problem aber auch verschlimmern, wenn es nicht richtig gehandhabt wird. Ansätze des maschinellen Lernens oder die Verwendung von Ontologien und zugehörigen Regeln bieten Möglichkeiten, die Relevanz wichtiger Dokumente zu erhöhen und sie so zu organisieren, dass sowohl die Suche als auch die Entdeckung verbessert werden. In den frühen Phasen der Entwicklung ist es jedoch wahrscheinlich, dass ein automatisches Klassifizierungssystem zwei Arten von Fehlern macht, die, wenn sie nicht behoben werden, zu Problemen bei der Auffindbarkeit und Sichtbarkeit führen können. Erstens wird es Dokumente fälschlicherweise kennzeichnen, was zu dem Problem der Tarnung oder des Rauschens führt, und zweitens wird es Dokumente nicht so kennzeichnen, wie es sollte – was zu einem Problem mit der Sichtbarkeit der Inhalte führt. Wir bezeichnen diese Fehler als „Präzisions-“ bzw. „Abruffehler“. Der Recall-Fehler ist besonders heimtückisch, denn wenn er nicht erkannt wird, führt er dazu, dass Dokumente beim Anklicken einer Navigationsfacette nicht berücksichtigt werden. Außerdem sind Auslassungsfehler schwieriger zu erkennen und erfordern die Eingabe von Personen, die die Inhalte gut genug kennen, um zu wissen, was der Autoklassifikator tun „sollte“. Die manuelle Markierung ist zwar potenziell genauer, aber in vielen Fällen einfach nicht durchführbar, da es schwierig ist, Fachexperten auszulagern. Die Analyse/Kuration der Datenqualität ist hier der Schlüssel. In vielen Fällen ist nicht die Suchmaschine schuld an dem Problem. Müll rein – Müll raus, wie das Sprichwort sagt.

Datenvisualisierung – Suchgesteuerte Analysen

Ich denke, dass eine der aufregendsten Verwendungen der Suche als Entdeckungswerkzeug die Kombination des Suchparadigmas mit der Analyse ist. Früher war dies die Domäne des relationalen Datenbankmodells, das den Kern dessen bildet, was wir als „Business Intelligence“ oder BI bezeichnen. Berichte, die von Analysten aus relationalen Daten erstellt werden, fallen unter den Begriff OLAP (Online Analytical Processing), bei dem in der Regel ein Datenanalyst eine Reihe von relationalen Abfragen entwirft, deren Ergebnisse dann in eine Grafikmaschine eingegeben werden, um eine Reihe von Diagrammen zu erstellen. Wenn sich die Daten ändern, wird der OLAP-„Würfel“ erneut ausgeführt und ein neuer Bericht wird erstellt. Um neue Möglichkeiten zur Betrachtung der Daten zu schaffen, müssen neue Würfel entwickelt, getestet usw. werden. Dieser Prozess führt naturgemäß zu einer Stagnation – die Erstellung von Würfeln ist kostspielig und kann neue Ideen im Keim ersticken, da für die Umsetzung dieser Ideen ein gewisses Maß an Expertenarbeit erforderlich ist.

Suchmaschinen und relationale Datenbanken sind sehr unterschiedliche Tiere. Suchmaschinen sind in einigen Dingen nicht so gut wie RDBMS – ACID-Transaktionen, relationale Joins usw. -, aber sie sind viel besser im Umgang mit komplexen Abfragen, die sowohl strukturierte als auch unstrukturierte (textuelle) Komponenten enthalten. Suchindizes wie Lucene können neben Textinformationen auch numerische, geografische und zeitliche Daten enthalten. Mit Hilfe von Facetten können sie auch Dinge zählen, die die Ausgabe dieser komplexen Abfragen sind. Dies ermöglicht es uns, interessantere Fragen zu Daten zu stellen – Fragen, die nach dem „Warum“ und nicht nur nach dem „Was“ von etwas fragen. Darüber hinaus haben die jüngsten Erweiterungen von Solr statistische Analysen hinzugefügt – wir können nun hochgradig interaktive Anwendungen zur Datenermittlung und -visualisierung entwickeln, die den Datenanalysten aus dem Spiel lassen. Auch wenn es immer noch Argumente für die traditionelle BI gibt, wird die suchgesteuerte Erkennung die Lücke füllen, denn sie ermöglicht jeder Benutzer – ob technisch versiert oder nicht – die „Was wäre wenn“-Fragen stellen kann. Sobald eine wichtige Analyse entdeckt worden ist, kann sie als OLAP-Würfel gekapselt werden, so dass die Intelligenz ihrer Fragen produktiv gemacht/verbreitet werden kann.

Da es in diesem Abschnitt um Visualisierung geht und es in diesem Beitrag keine Bilder gibt, möchten Sie vielleicht Beispiele dafür sehen, wovon ich spreche. Schauen Sie sich zunächst den Blog-Beitrag von Chris Hostetter (alias „Hoss“) „Hey, You Got Your Facets in My Stats! Sie haben Ihre Statistiken in meinen Facetten!!“ und seinen früheren Beitrag über Pivot-Facetten. Eine weitere tolle Demonstration dieser Fähigkeit stammt von Sam Mefford, als er bei Avalon Consulting arbeitete – dies ist eine sehr überzeugende Demonstration, wie die Facettensuche als Entdeckungs-/Visualisierungstool verwendet werden kann. Bravo Sam! Das ist der Punkt, an dem der Gummi auf die Straße trifft, Leute!

Wie ein Elektronikriese Ingenieure dort trifft, wo sie sind – mit 44 Millionen Produkten im Katalog

Lernen Sie Mohammad Mahboob kennen: Ein Direktor der Suchplattform, der 44 Millionen...

Von der Suche zu Lösungen: Wie KI-Agenten den digitalen Handel im Jahr 2025 antreiben können

Sehen Sie sich dieses On-Demand-Webinar an und erfahren Sie mehr über die...

Individuelle KI-Agenten erstellen, ohne eine einzige Zeile Code zu schreiben? Ja, das haben wir getan.

Endlich eine Low-Code-KI-Plattform (wirklich kein Code), mit der die Menschen, die Ihre...