Ein praktischer Ansatz zur Verbesserung von Dokumenten mit Solr/Lucene
Per Definition ist das Boosten von Dokumenten alles andere als ein „Einheits-Phänomen“, wie Tim Potter vom National Renewable Energy Laboratory (NREL) in seinem Vortrag „Boosting Documents in Solr by Recency, Popularity, and Personal Preferences“ an Tag 1 der Lucene Revolution feststellt.
Folien für diese Sitzung.
Tims Vortrag stellte eine Reihe von innovativen und verbesserten Ansätzen vor, um Dokumente in Solr nach Alter und Popularität aufzuwerten. Außerdem ging er auf die Filterung von Dokumenten auf der Grundlage von Benutzerpräferenzen ein. Zu jedem seiner Themen präsentierte er Tipps und Tricks, und eine konstante Exzellenz seiner Präsentation waren die reichlich eingestreuten Beispielcode-Schnipsel.
Tim wies darauf hin, dass es beim Boosting darum geht, die Relevanzbewertung zu erhöhen, und dass der Betrag, um den sie erhöht wird, der verwendeten Metrik angemessen sein muss. Sein Ansatz für das Boosting nach Alter beinhaltet die Verwendung der Abfragefunktionen recip
und ms
. Er zeigte einige Diagramme, in denen die Ergebnisse der verschiedenen Bewertungsanpassungen verglichen wurden.
Die nächste Methode, das Boosten nach Popularität, kann direkt mit dem Boosten nach Alter konkurrieren. Im Allgemeinen gilt: Je älter ein Dokument ist, desto weniger wird es geboostet. Die „Konkurrenz“ tritt in der Regel dann auf, wenn ein Dokument schon ziemlich alt ist, aber aus irgendeinem Grund einen Popularitätsschub erfährt. Wie Tim betont hat, ist es daher wichtig, beim Boosten nach Popularität diese Popularität im Kontext von „Zeitfenstern“ zu betrachten.
Tims abschließende Kommentare zur Filterung nach Benutzerpräferenzen enthielten den Vorbehalt, dass das Wichtigste bei der Implementierung dieser Technik der übermäßige Ausschluss ist, der leicht eine Folge dieser Technik sein kann. Sein Ansatz hängt von der Verwendung eines Solr FastLRUCache ab und erfordert eine Feststellung, ob sich die Präferenzen des Benutzers geändert haben, was einen Cache-Flush erfordert.
Cross-posted mit Lucene Revolution Blog. Tony Barreca ist ein Gast-Blogger. Dies ist eine von mehreren Zusammenfassungen von Präsentationen auf der Konferenz.