Die Suche nach der Suche bei Reddit
Lucidworks Fusion verbessert die Suche für die riesige Online-Community von Reddit mit 330 Millionen monatlichen Nutzern.
Heute kündigte Reddit seine neue Suche für die „Startseite des Internets“ an, die mit Lucidworks Fusion erstellt wurde.
Reddit wurde in den goldenen Tagen des Web 2.0 im Jahr 2005 ins Leben gerufen und ist heute die viertbeliebteste Website in den USA und die neuntbeliebteste weltweit. Jeden Monat posten mehr als 330 Millionen Nutzer Links, kommentieren und stimmen in den 1,1 Millionen Communities (den sogenannten „Subreddits“) ab. Subreddits können sich um so breite Mainstream-Themen wie /r/politics, /r/bitcoin und /r/starwars drehen oder so obskure wie /r/bunnieswithhats, /r/grilledcheese und /r/animalsbeingjerks. Die Suche ist ein wichtiger Bestandteil bei dem Versuch, mehr Informationen über ihre Lieblingsthemen und Hobbys im gesamten Universum der Communities zu finden.
Da die Website gewachsen ist, wurden im Laufe der Jahre fünf verschiedene Suchstacks für die Suchfunktion implementiert, darunter Postgres, PyLucene, Apache Solr, IndexTank und Amazons CloudSearch. Jedes Mal verbesserte sich die Leistung, konnte aber nicht mit dem Wachstum der Website mithalten und die Relevanz war nicht so hoch, wie sie sein sollte.
„Wenn man an das Internet denkt, denkt man an eine Handvoll Websites – Facebook, Google, Youtube und Reddit. Ich persönlich bin der Meinung, dass Reddit die wichtigste von allen ist“, erklärt Will Hayes, CEO von Lucidworks. „Es verbindet Fremde aus der ganzen Welt zu einer unglaublich vielfältigen Gruppe von Themen. Inhalte werden in einem halsbrecherischen Tempo und in großem Umfang erstellt. Aus diesem Grund ist die Suchfunktion ein unglaublich wichtiges Teil des UX-Puzzles. Mit Lucidworks Fusion ist Reddit in der Lage, das Problem der Größe und Komplexität zu lösen und das erstklassige Sucherlebnis zu bieten, das seine Nutzer erwarten. “
Das Team entschied sich für Lucidworks Fusion aufgrund seiner erstklassigen Suchfunktionen, darunter effiziente Skalierung, Überwachung und verbesserte Suchrelevanz.
„Reddit ist stark auf die Entdeckung von Inhalten angewiesen, da unser wichtigstes Wertversprechen darin besteht, unseren Nutzern ein Zuhause zu bieten, in dem sie die Dinge entdecken, teilen und diskutieren können, die sie am meisten interessieren“, sagte Nick Caldwell, Vice President of Engineering bei Reddit. „Mit dem Wachstum von Reddit haben sich auch die Erwartungen unserer Communitys an das Erlebnis, das wir bieten, erhöht und die Verbesserung unserer Suchplattform wird uns helfen, einen langjährigen Schmerzpunkt der Nutzer auf sinnvolle Weise anzugehen. Wir gehen davon aus, dass die Anpassungsfähigkeit und die maschinellen Lernfunktionen von Fusion unsere Suchfunktionen erheblich verbessern und die Art und Weise, wie Menschen Inhalte auf der Website entdecken, verändern werden.“
Hier sind nur einige der Ergebnisse der neuen Suche, die jetzt zu 100% für alle Nutzer verfügbar ist:
- Reduzierung der ETL-Indizierungspipelines auf nur noch 4 Hive-Abfragen, was zu einem Anstieg der indizierten Beiträge um 33% führte
- Vollständige Neuindizierung aller Reddit-Inhalte von 11 Stunden auf 5 Stunden reduziert, mit ständigen Live-Updates und einer Reduzierung der Fehler um zwei Größenordnungen
- Anzahl der Hardware/Maschinen von 200 auf 30 reduziert
- 99% der Suchanfragen liefern Suchergebnisse in 500ms
- Vergleichbare Relevanz wie bei der alten Suche (noch ohne Feinabstimmung!)
Das ist nur ein kleiner Teil des ausführlichen Blogbeitrags auf dem Reddit-Blog. Die Suche nach einer besseren Suche bei Reddit.
Verpassen Sie nicht ihre Keynote auf der Lucene/Solr Revolution nächste Woche in Las Vegas.
Berichterstattung in TechCrunch und KMWorld. Mehr auf dem Weg!