Der tatsächliche Kilometerstand kann variieren
Wenige Wochen nach der Ankündigung von Microsoft, dass FAST nicht mehr unter Linux/Unix verfügbar sein wird, tauchen immer wieder interessante…
Wenige Wochen nach der Ankündigung von Microsoft, dass FAST nicht mehr unter Linux/Unix verfügbar sein wird, tauchen immer wieder interessante Berichte über die Verwendung von Lucene und Solr an seiner Stelle auf. Der jüngste Bericht stammt von der Technology Services Group, einem Beratungsunternehmen für Open-Source-Content-Management-Lösungen und einem Integrationsunternehmen mit Sitz in Chicago. In einem Blog-Beitrag von Anfang dieser Woche wird ein Proof of Concept für einen großen Pharmakunden beschrieben, bei dem die Suche nach 156.000 Dokumenten in einer externen Datenquelle, die von Lucene indiziert wurde, bewertet wurde. Die Suchanwendung war Teil einer größeren CMS-Lösung auf der Basis von EMC documentum.
Lucene/HPI [die Lucene-basierte Lösung von TSG Documentum] und dem externen Repository war bei den meisten Abfragen deutlich schneller als die bestehende FAST/Webtop-Implementierung.
Spezifische Ergebnisse:
Abfrage FAST/Webtop Lucene/HPI 1200 Ergebnisse 90 Sekunden 3 Sekunden 8 Ergebnisse 5 Sekunden 3 Sekunden 10 Ergebnisse 8 Sekunden 4 Sekunden 76 Ergebnisse 10 Sekunden 5 Sekunden 5100 Ergebnisse 72 Sekunden 5 Sekunden 65 Ergebnisse 6 Sekunden 3 Sekunden Die einfache Konfiguration des Lucene-Indexes lieferte eine vollständigere Suchergebnismenge als die Standardkonfiguration von FAST/webtop. Beispiele hierfür sind zusätzliche Dokumente, die logische Ableitungen des ursprünglichen Suchbegriffs sind. Zum Beispiel könnte eine Suche nach „Ausnahmebericht“ „Ausnahmebericht“ oder „Ausnahmeberichte“ ergeben. Der Proof-of-Concept-Datensatz enthielt auch deutsche Dokumente und Lucene demonstrierte die Fähigkeit zum mehrsprachigen Stemming.
Besser als eine 10-fache Reduktion klingt wirklich gut. Nun, bei jedem Benchmark steckt der Teufel im Detail: Lügen, verdammte Lügen und Benchmarks. Es ist schwieriger, sie objektiv zu konstruieren, als es ein schöner Satz von Ergebnissen vermuten ließe. Und so liegt für mich die wahre Pointe in einer anderen Reihe von Zahlen:
Die Flexibilität von Lucene, sowohl die Metadaten als auch die Volltextwerte zu indizieren, ermöglichte es dem Kunden, eine zusätzliche Oracle-Datenbank für die Speicherung von Attributen in seinem externen Cache zu vermeiden.
Ein Scheck weniger an Oracle – das ist echtes Geld.