Der tatsächliche Kilometerstand kann variieren

Wenige Wochen nach der Ankündigung von Microsoft, dass FAST nicht mehr unter Linux/Unix verfügbar sein wird, tauchen immer wieder interessante Berichte über die Verwendung von Lucene und Solr an seiner Stelle auf. Der jüngste Bericht stammt von der Technology Services Group, einem Beratungsunternehmen für Open-Source-Content-Management-Lösungen und einem Integrationsunternehmen mit Sitz in Chicago. In einem Blog-Beitrag von Anfang dieser Woche wird ein Proof of Concept für einen großen Pharmakunden beschrieben, bei dem die Suche nach 156.000 Dokumenten in einer externen Datenquelle, die von Lucene indiziert wurde, bewertet wurde. Die Suchanwendung war Teil einer größeren CMS-Lösung auf der Basis von EMC documentum.

Lucene/HPI [die Lucene-basierte Lösung von TSG Documentum] und dem externen Repository war bei den meisten Abfragen deutlich schneller als die bestehende FAST/Webtop-Implementierung.

Spezifische Ergebnisse:

Abfrage FAST/Webtop Lucene/HPI
1200 Ergebnisse 90 Sekunden 3 Sekunden
8 Ergebnisse 5 Sekunden 3 Sekunden
10 Ergebnisse 8 Sekunden 4 Sekunden
76 Ergebnisse 10 Sekunden 5 Sekunden
5100 Ergebnisse 72 Sekunden 5 Sekunden
65 Ergebnisse 6 Sekunden 3 Sekunden

Die einfache Konfiguration des Lucene-Indexes lieferte eine vollständigere Suchergebnismenge als die Standardkonfiguration von FAST/webtop. Beispiele hierfür sind zusätzliche Dokumente, die logische Ableitungen des ursprünglichen Suchbegriffs sind. Zum Beispiel könnte eine Suche nach „Ausnahmebericht“ „Ausnahmebericht“ oder „Ausnahmeberichte“ ergeben. Der Proof-of-Concept-Datensatz enthielt auch deutsche Dokumente und Lucene demonstrierte die Fähigkeit zum mehrsprachigen Stemming.

Besser als eine 10-fache Reduktion klingt wirklich gut. Nun, bei jedem Benchmark steckt der Teufel im Detail: Lügen, verdammte Lügen und Benchmarks. Es ist schwieriger, sie objektiv zu konstruieren, als es ein schöner Satz von Ergebnissen vermuten ließe. Und so liegt für mich die wahre Pointe in einer anderen Reihe von Zahlen:

Die Flexibilität von Lucene, sowohl die Metadaten als auch die Volltextwerte zu indizieren, ermöglichte es dem Kunden, eine zusätzliche Oracle-Datenbank für die Speicherung von Attributen in seinem externen Cache zu vermeiden.

Ein Scheck weniger an Oracle – das ist echtes Geld.

Share the knowledge

You Might Also Like

Agentische KI und der Aufstieg von Protokollen: Wohin sich das Ökosystem als nächstes bewegt

m Jahr 2025 bewegen wir uns schnell auf ein neues Paradigma in...

Read More

MCP und Kontextfenster: Warum Protokolle eine größere Rolle spielen als größere LLMs

Im letzten Jahr hat sich das Rennen um die Erweiterung der LLM-Kontextfenster...

Read More

Wie MCP die KI-gestützte Suche und Entdeckung verbessern kann

In der Ära der generativen KI ist die Suche nicht länger ein...

Read More

Quick Links