Fünf Wege, wie Fusion den Wert eines Hadoop Data Lake steigert
Hadoop Data Lakes frustrieren Unternehmensleiter, Datenwissenschaftler und Analysten, weil mehr Daten langsamere Abfragen bedeuten. Sehen Sie, wie Sie mit maschinellem Lernen die Abfragen beschleunigen können.
Dies ist ein sehr nostalgischer Blogbeitrag für mich. Ich habe von Februar 2013 bis zum Sommer 2017 als Produktvermarkter bei Hortonworks gearbeitet. In diesen viereinhalb Jahren habe ich etwa 50 Artikel verfasst, in denen ich die Vorzüge von Hadoop und den damit verbundenen Projekten der Apache Software Foundation angepriesen habe. (Suchen Sie nicht nach diesen Beiträgen. Sie haben die Fusion zwischen Cloudera und Hortonworks nicht überlebt.)
Damals warben wir für den Apache Hadoop Data Lake als den besten Weg, um den Wert von Big Data zu erfassen, trotz der „drei V’s“ moderner Daten: Volumen, Geschwindigkeit und Vielfalt. Das Wertversprechen war aufrichtig, und in der Regel rechtfertigte der erste Anwendungsfall die Investition unserer Kunden in Hadoop um ein Vielfaches.
Es gibt Gold in den Hügeln
Doch seit dem Höhepunkt des Hadoop-Goldrausches in den Jahren 2014-2015 ist der Glanz etwas verblasst. Fachleute und Praktiker haben stolz verkündet: „Hadoop ist tot. Lang lebe Hadoop.“ In der Tat finden Sie viele Blogbeiträge oder Artikel mit Varianten dieses Titels:
- 2019: „Hadoop ist tot. Lang lebe Hadoop.“ von Arun Murthy, einem der Gründerväter von Hadoop
- 2018: „Ist Hadoop offiziell tot?“ von Alex Woodie in Datanami
- 2016: „Hadoop ist tot, es lebe Hadoop!“ von Svetlana Sicular von Gartner
- 2012: „Hadoop ist tot. Lang lebe Hadoop“ von Matt Aslett von der 451 Gruppe
Aber trotz all dieser Unkenrufe wird Hadoop noch mindestens sieben Jahre lang wie ein Zombie vor sich hin dümpeln. Im September dieses Jahres gab Cloudera einen Quartalsumsatz von fast 200 Millionen Dollar bekannt. Wenn das als tot gilt, dann hoffe ich, dass ich so viel Geld verdiene, wenn ich unter der Erde liege.
Jede halbwegs objektive Analyse der aktuellen Landschaft muss mit den vielen Tausenden von Petabytes rechnen, die immer noch in HDFS-Produktionsumgebungen auf der ganzen Welt gespeichert sind.
Warum also all die Unkenrufe?
Diese Frustration und Enttäuschung rührt daher, dass es schwierig ist, aus all den großen, schönen und quellenübergreifenden Daten einen Nutzen zu ziehen. Sie sind da – zum Greifen nah! -… auf handelsüblichen Servern. Aber wir können sie nicht so nutzen, wie wir es gerne würden. Schieben wir dieses Problem der letzten Meile auf die „vier S“: Geschwindigkeit, Wissenschaft, Sicht und Sozialisierung:
- Geschwindigkeit: Hadoop-Abfragen sind notorisch langsam.
- Wissenschaft: Datenwissenschaftler möchten ML-Modelle auf Seedaten trainieren, aber das Feature-Engineering und die Datenexploration, die zur Implementierung dieser Fähigkeiten erforderlich sind, sind langsam, mühsam und technisch.
- Anblick: Die Visualisierungsoptionen für Big Data-Einblicke sind weder schön noch interaktiv.
- Sozialisierung: Hohe Priester und Priesterinnen in den Hadoop CoEs (Centers of Excellence) nehmen die Fragen der ungeschulten Massen entgegen und verteilen die Antworten, während sie sich durch die Warteschlange arbeiten. Die Schwierigkeit, Daten im Selbstbedienungsmodus zu finden, verhindert, dass sich Erkenntnisse wie ein Virus verbreiten.
Die utopische Vision, dass Hadoop die Intelligenz von Millionen von Mitarbeitern in Unternehmen und Behörden steigert, wenn sie visuell mit Terabytes von Daten in Echtzeit interagieren… das ist nicht eingetreten. Auch wenn die Daten unaufhörlich in diese Data Lakes strömen, kommen die Erkenntnisse immer noch in kleinen Tropfen.
Speicherung bedeutet nicht automatisch auch Einblicke
Das liegt daran, dass die Speicherung von Daten nicht dasselbe ist wie die Einsicht in die Daten.
Aber die glücklichen Tage sind wieder da! Lucidworks Fusion macht Big Data mit einer KI-gesteuerten Suche und einer Interaktionsmethode, mit der jeder vertraut ist, leicht zugänglich: dem Suchfeld. Jetzt kann jeder im Unternehmen Big Data durchsuchen, ohne spezielle Tools wie Hive, Spark, HBase oder Kafka erlernen zu müssen. Jeder kann so schnell Erkenntnisse gewinnen, wie er eine Suchanfrage eingeben oder beim Durchsuchen auf eine Facette klicken kann.
5 Gründe, warum Lucidworks Fusion Ihren Hadoop-ROI verbessert
1. Schnellere Abfragen und bessere Antworten
Analysten und Datenwissenschaftler haben sich daran gewöhnt, Abfragen zu schreiben und Minuten auf die Ergebnisse zu warten. Sie haben dies akzeptiert, denn langsame Erkenntnisse sind besser als keine.
Fusion nimmt der Hadoop-Datenexploration das Warten ab. Die Ergebnisse von Abfragen in natürlicher Sprache werden sofort angezeigt, und Fusion unterstützt Tausende von Abfragen pro Sekunde.
2. Jedem Zugang zu Insights ermöglichen
Data Lakes haben ihre de facto Torwächter für die darin enthaltenen Erkenntnisse. Wenn Sie Hive, Impala oder eine andere Big Data-Zugriffs-Engine nicht verwenden können, brauchen Sie einen der Auserwählten, der die Fragen für Sie stellt.
Mit Fusion kann jeder den Data Lake erkunden, indem er Fragen in natürlicher Sprache in mehr als 60 Sprachen stellt. Oder sie können einen Fusion SQL-Service nutzen, der es Unternehmen ermöglicht, ihre bestehenden Investitionen in BI-Tools zu nutzen, indem sie JDBC und SQL verwenden, um die von Fusion verwalteten Daten zu analysieren.
3. Operationalisieren Sie maschinelles Lernen
Unternehmen wollen maschinelles Lernen (ML) einführen, um ihre Abläufe effizienter zu gestalten. ML-Projekte scheitern jedoch häufig, weil Führungskräfte, Datenwissenschaftler und das DevOps-Team Schwierigkeiten bei der Zusammenarbeit haben.
Fusion wird mit fortschrittlichen ML-Modellen geliefert. Außerdem können vorhandene Python-Modelle einfach integriert werden, oder Datenwissenschaftler können neue Modelle in Fusion-Pipelines veröffentlichen. Die Benutzer erzeugen einen ständigen Strom von Signalen, mit denen diese Modelle trainiert werden. Proaktive Empfehlungen für E-Commerce-Merchandising, die nächstbesten Investitionsentscheidungen oder juristische E-Discovery (um nur einige zu nennen) werden mit jeder Suche, jedem Klick oder jedem Download vorausschauender.
4. Verschieben Sie keine Daten, sondern verbinden Sie sich mit APIs
Es war schwierig, so viele unterschiedliche Daten in Ihren Data Lake zu bekommen. Sie sollten sie nicht noch einmal verschieben müssen. Apache Solr, das Herzstück von Fusion, durchsucht bereits seit über einem Jahrzehnt verteilte Daten im Hadoop Distributed File System (HDFS).
Als ich bei Hortonworks war, haben wir uns mit Lucidworks zusammengetan, um Apache Solr zu unterstützen, bevor Lucidworks Fusion entwickelte. Lucidworks stellte sechs Konnektoren für die Indizierung von Inhalten von Hadoop zu Solr zur Verfügung, für: HDFS, Hive, Pig, HBase, Storm und Spark. Durchsuchen Sie die Daten dort, wo sie sind.
5. Machen Sie sich keine Sorgen. Es ist sicher.
Dreißig Prozent der US Fortune 100 setzen Lucidworks Fusion täglich in der Produktion ein. Die Plattform verfügt über mehrere Optionen für die Authentifizierung und Autorisierung von Benutzern, darunter Active Directory und Kerberos. Fusion kann den Zugriff auf jede Ressource einschränken und unterstützt auch das „Security Trimming“ für viele Repositories wie Google Drive und Microsoft Sharepoint, wobei die Zugriffskontrollrechte beim Ingestion vererbt werden.
Wenn Sie also in einen Hadoop-Datensee investiert haben und der geschäftliche Nutzen blockiert ist, sprechen Sie mit uns über die Aufnahme von Fusion in Ihr Ökosystem. Hadoop ist nicht tot, es braucht nur eine KI-gestützte Suche, die im Kern auf Open-Source-Cousins von Hadoop basiert: Apache Solr und Apache Spark.