Der tatsächliche Kilometerstand kann variieren

Wenige Wochen nach der Ankündigung von Microsoft, dass FAST nicht mehr unter Linux/Unix verfügbar sein wird, tauchen immer wieder interessante…

Wenige Wochen nach der Ankündigung von Microsoft, dass FAST nicht mehr unter Linux/Unix verfügbar sein wird, tauchen immer wieder interessante Berichte über die Verwendung von Lucene und Solr an seiner Stelle auf. Der jüngste Bericht stammt von der Technology Services Group, einem Beratungsunternehmen für Open-Source-Content-Management-Lösungen und einem Integrationsunternehmen mit Sitz in Chicago. In einem Blog-Beitrag von Anfang dieser Woche wird ein Proof of Concept für einen großen Pharmakunden beschrieben, bei dem die Suche nach 156.000 Dokumenten in einer externen Datenquelle, die von Lucene indiziert wurde, bewertet wurde. Die Suchanwendung war Teil einer größeren CMS-Lösung auf der Basis von EMC documentum.

Lucene/HPI [die Lucene-basierte Lösung von TSG Documentum] und dem externen Repository war bei den meisten Abfragen deutlich schneller als die bestehende FAST/Webtop-Implementierung.

Spezifische Ergebnisse:

Abfrage FAST/Webtop Lucene/HPI
1200 Ergebnisse 90 Sekunden 3 Sekunden
8 Ergebnisse 5 Sekunden 3 Sekunden
10 Ergebnisse 8 Sekunden 4 Sekunden
76 Ergebnisse 10 Sekunden 5 Sekunden
5100 Ergebnisse 72 Sekunden 5 Sekunden
65 Ergebnisse 6 Sekunden 3 Sekunden

Die einfache Konfiguration des Lucene-Indexes lieferte eine vollständigere Suchergebnismenge als die Standardkonfiguration von FAST/webtop. Beispiele hierfür sind zusätzliche Dokumente, die logische Ableitungen des ursprünglichen Suchbegriffs sind. Zum Beispiel könnte eine Suche nach „Ausnahmebericht“ „Ausnahmebericht“ oder „Ausnahmeberichte“ ergeben. Der Proof-of-Concept-Datensatz enthielt auch deutsche Dokumente und Lucene demonstrierte die Fähigkeit zum mehrsprachigen Stemming.

Besser als eine 10-fache Reduktion klingt wirklich gut. Nun, bei jedem Benchmark steckt der Teufel im Detail: Lügen, verdammte Lügen und Benchmarks. Es ist schwieriger, sie objektiv zu konstruieren, als es ein schöner Satz von Ergebnissen vermuten ließe. Und so liegt für mich die wahre Pointe in einer anderen Reihe von Zahlen:

Die Flexibilität von Lucene, sowohl die Metadaten als auch die Volltextwerte zu indizieren, ermöglichte es dem Kunden, eine zusätzliche Oracle-Datenbank für die Speicherung von Attributen in seinem externen Cache zu vermeiden.

Ein Scheck weniger an Oracle – das ist echtes Geld.

You Might Also Like

Vom Suchunternehmen zum praktischen KI-Pionier: Unsere Vision für 2025 und darüber hinaus

CEO Mike Sinoway gibt Einblicke in die Zukunft der KI und stellt...

Read More

Wenn KI schief geht: Fehlschläge in der realen Welt und wie man sie vermeidet

Lassen Sie nicht zu, dass Ihr KI-Chatbot einen 50.000 Dollar teuren Tahoe...

Read More

Lucidworks Kernpakete: Branchenoptimierte KI-Such- und Personalisierungslösungen

Entdecken Sie unsere umfassenden Core Packages, die Analytics Studio, Commerce Studio und...

Read More

Quick Links