Open-Source-Hadoop-Konnektoren für Solr

Lucidworks freut sich, Ihnen mitteilen zu können, dass mehrere unserer Konnektoren für die Indizierung von Inhalten aus Hadoop in Solr…

Lucidworks freut sich, Ihnen mitteilen zu können, dass mehrere unserer Konnektoren für die Indizierung von Inhalten aus Hadoop in Solr jetzt Open Source sind.

Wir haben sechs davon, mit Unterstützung für Spark, Hive, Pig, HBase, Storm und HDFS, die alle auf Github verfügbar sind. Alle funktionieren mit Solr 5.x und enthalten Optionen für Kerberos-gesicherte Umgebungen, falls erforderlich.

HDFS für Solr

Dies ist ein Job-Jar für Hadoop, das MapReduce verwendet, um Inhalte für die Indizierung vorzubereiten und Dokumente an Solr zu übertragen. Es unterstützt Solr im Standalone-Modus oder im SolrCloud-Modus.

Es kann sich mit dem Standard-Hadoop-HDFS oder dem MapR-FS von MapR verbinden.

Eine wichtige Funktion dieses Connectors ist der Ingest-Mapper, der Inhalte aus verschiedenen Originalformaten in Solr-fähige Dokumente konvertiert. CSV-Dateien, ZIP-Archive, SequenceFiles und WARC werden unterstützt. Grok und reguläre Ausdrücke können ebenfalls zum Parsen von Inhalten verwendet werden. Wenn Sie sich noch weitere Funktionen wünschen, lassen Sie es uns wissen!

Repo-Adresse: https://github.com/Lucidworks/hadoop-solr.

Hive für Solr

Dies ist ein Hive SerDe, der Inhalte aus einer Hive-Tabelle in Solr indizieren oder Inhalte aus Solr lesen kann, um eine Hive-Tabelle zu füllen.

Repo-Adresse: https://github.com/Lucidworks/hive-solr.

Schwein für Solr

Dies sind Pig-Funktionen, die das Ergebnis eines Pig-Skripts an Solr (Standalone oder SolrCloud) ausgeben können.

Repo-Adresse: https://github.com/Lucidworks/pig-solr.

HBase Indexer

Der hbase-indexer ist ein Dienst, der die HBase-Replikationsfunktion nutzt, um Inhalte abzufangen, die in HBase gestreamt werden, und sie in einen Solr-Index zu replizieren.

Unsere Arbeit ist eine Abspaltung eines NGDATA-Projekts, aber aktualisiert für Solr 5.x und HBase 1.1. Es unterstützt auch HBase 0.98 mit Solr 5.x. (Beachten Sie, dass HBase-Versionen vor 0.98 nicht mit unseren Änderungen getestet wurden).

Wir werden diesen Beitrag zurückgeben, aber während wir den Patch zusammenstellen, können Sie unseren Code mit Solr 5.x verwenden.

Repo-Adresse: https://github.com/Lucidworks/hbase-indexer.

Sturm für Solr

Mein Kollege Tim Potter hat diese Integration entwickelt und bereits im Mai 2015 in dem Blogbeitrag Integration von Storm und Solr beschrieben. Dies ist ein SDK zur Entwicklung von Storm-Topologien, die Inhalte in Solr indizieren.

Als SDK enthält es ein Test-Framework und Tools, mit denen Sie Ihre Topologie für die Verwendung in einem Produktionscluster vorbereiten können. In der README finden Sie ein schönes Beispiel mit Twitter, das Sie für Ihren eigenen Anwendungsfall anpassen können.

Repo-Adresse: https://github.com/Lucidworks/storm-solr.

Spark für Solr

Ein weiteres Projekt von Tim Potter, das wir im August 2015 veröffentlicht haben und das im Blogbeitrag Solr as an Apache Spark SQL DataSource besprochen wurde. Auch hier handelt es sich um ein SDK für die Entwicklung von Spark-Anwendungen, einschließlich eines Test-Frameworks und eines detaillierten Beispiels, das Twitter verwendet.

Repo-Adresse: https://github.com/Lucidworks/spark-solr.

 

Bild vom Buchumschlag von Jean de Brunhoffs„Babar und der Weihnachtsmann„.

You Might Also Like

B2B-KI-Benchmarkstudie 2025: Was wir in den Schützengräben sehen

Laden Sie die B2B-KI-Benchmark-Highlights 2025 von Lucidworks herunter. Sehen Sie sich die...

Read More

Vom Suchunternehmen zum praktischen KI-Pionier: Unsere Vision für 2025 und darüber hinaus

CEO Mike Sinoway gibt Einblicke in die Zukunft der KI und stellt...

Read More

Wenn KI schief geht: Fehlschläge in der realen Welt und wie man sie vermeidet

Lassen Sie nicht zu, dass Ihr KI-Chatbot einen 50.000 Dollar teuren Tahoe...

Read More

Quick Links