Der tatsächliche Kilometerstand kann variieren

Wenige Wochen nach der Ankündigung von Microsoft, dass FAST nicht mehr unter Linux/Unix verfügbar sein wird, tauchen immer wieder interessante Berichte über die Verwendung von Lucene und Solr an seiner Stelle auf. Der jüngste Bericht stammt von der Technology Services Group, einem Beratungsunternehmen für Open-Source-Content-Management-Lösungen und einem Integrationsunternehmen mit Sitz in Chicago. In einem Blog-Beitrag von Anfang dieser Woche wird ein Proof of Concept für einen großen Pharmakunden beschrieben, bei dem die Suche nach 156.000 Dokumenten in einer externen Datenquelle, die von Lucene indiziert wurde, bewertet wurde. Die Suchanwendung war Teil einer größeren CMS-Lösung auf der Basis von EMC documentum.

Lucene/HPI [die Lucene-basierte Lösung von TSG Documentum] und dem externen Repository war bei den meisten Abfragen deutlich schneller als die bestehende FAST/Webtop-Implementierung.

Spezifische Ergebnisse:

Abfrage FAST/Webtop Lucene/HPI
1200 Ergebnisse 90 Sekunden 3 Sekunden
8 Ergebnisse 5 Sekunden 3 Sekunden
10 Ergebnisse 8 Sekunden 4 Sekunden
76 Ergebnisse 10 Sekunden 5 Sekunden
5100 Ergebnisse 72 Sekunden 5 Sekunden
65 Ergebnisse 6 Sekunden 3 Sekunden

Die einfache Konfiguration des Lucene-Indexes lieferte eine vollständigere Suchergebnismenge als die Standardkonfiguration von FAST/webtop. Beispiele hierfür sind zusätzliche Dokumente, die logische Ableitungen des ursprünglichen Suchbegriffs sind. Zum Beispiel könnte eine Suche nach „Ausnahmebericht“ „Ausnahmebericht“ oder „Ausnahmeberichte“ ergeben. Der Proof-of-Concept-Datensatz enthielt auch deutsche Dokumente und Lucene demonstrierte die Fähigkeit zum mehrsprachigen Stemming.

Besser als eine 10-fache Reduktion klingt wirklich gut. Nun, bei jedem Benchmark steckt der Teufel im Detail: Lügen, verdammte Lügen und Benchmarks. Es ist schwieriger, sie objektiv zu konstruieren, als es ein schöner Satz von Ergebnissen vermuten ließe. Und so liegt für mich die wahre Pointe in einer anderen Reihe von Zahlen:

Die Flexibilität von Lucene, sowohl die Metadaten als auch die Volltextwerte zu indizieren, ermöglichte es dem Kunden, eine zusätzliche Oracle-Datenbank für die Speicherung von Attributen in seinem externen Cache zu vermeiden.

Ein Scheck weniger an Oracle – das ist echtes Geld.

Share the knowledge

You Might Also Like

Wie Sie feststellen können, ob Ihre B2B-Produktentdeckungsreise tatsächlich funktioniert

Eine funktionierende B2B-Produkterkennung löst zuverlässig Tippfehler, Teilenummern, Synonyme und Attributabfragen und unterstützt...

Read More

Der definitive Leitfaden für die Suche und Produktfindung im B2B-Handel

Die Suche im B2B-Handel hat ihren "Das ist nicht mehr nur ein...

Read More

B2B-Fertigungsteile-Suche meistern: Mehr Effizienz in der Lieferkette

In der modernen Fertigung ist es von entscheidender Bedeutung, das richtige Teil...

Read More

Quick Links