Mit Hadoop können Sie alles speichern; mit Lucene/Solr und mehr können Sie finden, was Sie suchen

In der aktuellen Ausgabe des Wired Magazine finden Sie einen Artikel über die Anfänge von Hadoop bei Yahoo und die drei Unternehmen, die darum wetteifern, die kommerziellen Grenzen von Hadoop schneller voranzutreiben: Hortonworks (Apache Lucene Eurocon Barcelona Keynote Video jetzt verfügbar, siehe unten), MapR und Cloudera. MapR-CEO John Schroeder bringt es auf den Punkt:

Wenn ich eine Terabyte-Festplatte für 100 Dollar bekomme – oder weniger, wenn ich sie in großen Mengen kaufe – und ich billige Rechenleistung und Netzwerkbandbreite bekomme, um auf diese Festplatte zuzugreifen, warum sollte ich dann nicht einfach alles behalten“, sagt er. „Mit Hadoop können Sie alle Ihre Rohdaten aufbewahren und in der Zukunft Fragen dazu stellen.

Yahoo, das sonst in der Presse wegen seines Geschäftsmodells beklagt wird, hat dies mit einer Reihe von Anwendungen von der Spam-Jagd (das Modell wird alle paar Stunden neu trainiert) bis hin zur automatischen Kategorisierung und der Zuordnung von Benutzerinhalten geschafft. Dabei wurden 5 Millionen Jobs pro Monat auf über 40 Tausend Servern und 170 Petabyte Speicherplatz ausgeführt (Festplatten im Wert von nur 17 Mio. $, genug, um höchstens ein halbes Dutzend Vertriebsmitarbeiter für Unternehmensspeicher zu beschäftigen. Die milliardenschweren Speicherunternehmen sind in heller Aufregung). Angesichts dieser Möglichkeiten ist es keine Überraschung, dass Ebay seinen Hadoop-Fußabdruck im letzten Jahr um das Fünffache auf über 2500 Server vergrößert hat. Es ist auch nicht überraschend, dass Eric Baldeschwieler, Hauptredner auf der Apache Lucene Eurocon 2011 in Barcelona letzte Woche, vorhersagt, dass innerhalb von 5 Jahren 50% der weltweiten Daten auf Hadoop gespeichert sein werden:

http://http://vimeo.com/31138925

Schritt eins: Speichern Sie alles und mappen/reduzieren Sie nach Herzenslust, indem Sie Key-Value-Abstraktionen verwenden, die zu Erkenntnissen führen, die Sie mit einer relationalen Datenbank nicht erreichen können (obwohl mit HDFS und Hive die Konstrukte des Dateisystems und der Abfrage aus der konventionellen Datenwelt nicht unerreichbar sind). Bei Lucid haben wir dazu beigetragen, diesen Prozess zu rationalisieren, zum Beispiel mit den integrierten HDFS-Konnektoren von Lucidworks.

Aber das beantwortet noch nicht die Frage, wie Sie den Kreislauf der Erkenntnisse in Gang setzen können, sobald Sie all diese Daten gespeichert haben. Hier wird die Gleichung für die Suche interessant. Wenn Sie jedes Mal genau wissen, wonach Sie suchen, ist es eine Sache, einige Aufträge zu schreiben, die einen bestimmten Trend oder eine bestimmte Erkenntnis extrahieren. Aber wenn Sie alles aufbewahren, können Sie dann a priori alles wissen? Nein, natürlich nicht. Grant Ingersolls Vortrag (siehe Video unten) stellt ein leistungsfähiges Portfolio von Tools vor, die auf Lucene/Solr basieren:
http://http://vimeo.com/31127354

Diese beiden Vorträge vermitteln Ihnen eine solide Grundlage dafür, warum die Anwendung der Suche auf Big Data für Endbenutzer und Unternehmen gleichermaßen wichtig ist. Ein besseres Bewusstsein durch die Suche auf der Grundlage echter Daten, kombiniert mit der Möglichkeit für Entwickler, den Zugriff und die Abfrage besser zu optimieren, und die Flexibilität, die weißen Flecken der Beziehungen zwischen den verfügbaren Informationen zu füllen – was Sie nicht wussten, wussten Sie nicht.

Weitere Vorträge aus Barcelona finden Sie hier. Wir werden demnächst auf den Vortrag von Michael Busch von Twitter eingehen.

You Might Also Like

4 bewährte KI-Suchlösungen für die Tarifverwaltung

Entdecken Sie, wie KI-Suchlösungen für das Tarifmanagement Einzelhändlern helfen, Margen und Kundenzufriedenheit...

Read More

KI-Agenten dominieren den Einkauf. Ist Ihre Website auf die KI-gestützte Suche vorbereitet?

Generative KI-Agenten wie ChatGPT definieren die Produktsuche neu. Erfahren Sie, wie Sie...

Read More

Vom Suchunternehmen zum praktischen KI-Pionier: Unsere Vision für 2025 und darüber hinaus

CEO Mike Sinoway gibt Einblicke in die Zukunft der KI und stellt...

Read More

Quick Links