Suchzeit-Parallelität bei Etsy: Ein Experiment mit Apache Lucene

Während wir den Countdown für die jährliche Lucene/Solr Revolution Konferenz in Austin im Oktober dieses Jahres laufen lassen, stellen wir Ihnen Vorträge und Sitzungen aus vergangenen Konferenzen vor. Heute stellen wir Ihnen Shikhar Bhushan von Etsy vor, der bei Etsy mit Parallelität bei der Suche experimentiert.

Ist es möglich, die Vorteile der Parallelität zu nutzen, die sich aus der Aufteilung Ihrer Daten in mehrere Indizes ergeben, ohne sie tatsächlich aufzuteilen? Besteht Ihr Lucene-Index nicht bereits aus Shards, d.h. aus Segmenten? In diesem Vortrag wird ein Experiment zur Parallelisierung des Herzstücks von Lucene vorgestellt: das Sammelprotokoll. Ein ausdrückliches Ziel war es, dies auf eine sperrfreie Weise mit Divide-and-Conquer zu erreichen. Es waren Änderungen an der Collector-API erforderlich, wie z.B. die Ausrichtung auf die Ebene der untergeordneten „Blatt“-Sammler, damit der Zustand auf Segmentebene parallel akkumuliert werden kann. Ich werde technische Details vorstellen, die wir auf diesem Weg gelernt haben, z.B. wie die TopDocs-Collectors von Lucene mit Prioritätswarteschlangen und benutzerdefinierten Komparatoren implementiert werden. Weiter geht es mit der Parallelisierbarkeit von Collectors – wie einige Collectors wie das Hit-Counting peinlich parallelisierbar sind, wie einige wie die DocSet-Sammlung eine reizvolle Herausforderung waren und andere, bei denen die Kompromisse zwischen Raum und Zeit mehr Beachtung finden müssen. Die Ergebnisse der Leistungstests, die derzeit von schlecht bis aufregend reichen, werden besprochen.

Shikhar arbeitet an der Suchinfrastruktur bei Etsy, dem globalen Marktplatz für Handarbeit und Vintage. Er hat Patches für Solr/Lucene beigesteuert und unterhält mehrere Open-Source-Projekte wie eine Java SSH-Bibliothek und ein Discovery-Plugin für Elasticsearch. Zuvor arbeitete er bei Bloomberg, wo er Vorträge zur Einführung von Entwicklern in Python und interne Python-Tools hielt. Er hat ein besonderes Interesse an JVM-Technologie und verteilten Systemen.

http://www.slideshare.net/lucidworks/searchtime-parallelism-presented-by-shikhar-bhushan-etsy-41862845

lucenerevolution-avatarMitmachen auf der Lucene/Solr Revolution 2015, der größten Open-Source-Konferenz zum Thema Apache Lucene/Solr vom 13. bis 16. Oktober 2015 in Austin, Texas. Treffen Sie sich mit den Vordenkern, die die Open-Source-Suchtechnologie Lucene/Solr entwickeln und einsetzen, und tauschen Sie sich mit ihnen aus. Alle Details und Anmeldung… 4

You Might Also Like

Dritte jährliche KI-Benchmarkstudie 2025: Was wir im B2C-E-Commerce sehen

Laden Sie die B2C-KI-Benchmark-Einblicke 2025 von Lucidworks herunter. Werfen Sie einen Blick...

Read More

B2B-KI-Benchmarkstudie 2025: Was wir in den Schützengräben sehen

Laden Sie die B2B-KI-Benchmark-Highlights 2025 von Lucidworks herunter. Sehen Sie sich die...

Read More

Vom Suchunternehmen zum praktischen KI-Pionier: Unsere Vision für 2025 und darüber hinaus

CEO Mike Sinoway gibt Einblicke in die Zukunft der KI und stellt...

Read More

Quick Links