Open-Source-Hadoop-Konnektoren für Solr

Lucidworks freut sich, Ihnen mitteilen zu können, dass mehrere unserer Konnektoren für die Indizierung von Inhalten aus Hadoop in Solr jetzt Open Source sind.

Wir haben sechs davon, mit Unterstützung für Spark, Hive, Pig, HBase, Storm und HDFS, die alle auf Github verfügbar sind. Alle funktionieren mit Solr 5.x und enthalten Optionen für Kerberos-gesicherte Umgebungen, falls erforderlich.

HDFS für Solr

Dies ist ein Job-Jar für Hadoop, das MapReduce verwendet, um Inhalte für die Indizierung vorzubereiten und Dokumente an Solr zu übertragen. Es unterstützt Solr im Standalone-Modus oder im SolrCloud-Modus.

Es kann sich mit dem Standard-Hadoop-HDFS oder dem MapR-FS von MapR verbinden.

Eine wichtige Funktion dieses Connectors ist der Ingest-Mapper, der Inhalte aus verschiedenen Originalformaten in Solr-fähige Dokumente konvertiert. CSV-Dateien, ZIP-Archive, SequenceFiles und WARC werden unterstützt. Grok und reguläre Ausdrücke können ebenfalls zum Parsen von Inhalten verwendet werden. Wenn Sie sich noch weitere Funktionen wünschen, lassen Sie es uns wissen!

Repo-Adresse: https://github.com/Lucidworks/hadoop-solr.

Hive für Solr

Dies ist ein Hive SerDe, der Inhalte aus einer Hive-Tabelle in Solr indizieren oder Inhalte aus Solr lesen kann, um eine Hive-Tabelle zu füllen.

Repo-Adresse: https://github.com/Lucidworks/hive-solr.

Schwein für Solr

Dies sind Pig-Funktionen, die das Ergebnis eines Pig-Skripts an Solr (Standalone oder SolrCloud) ausgeben können.

Repo-Adresse: https://github.com/Lucidworks/pig-solr.

HBase Indexer

Der hbase-indexer ist ein Dienst, der die HBase-Replikationsfunktion nutzt, um Inhalte abzufangen, die in HBase gestreamt werden, und sie in einen Solr-Index zu replizieren.

Unsere Arbeit ist eine Abspaltung eines NGDATA-Projekts, aber aktualisiert für Solr 5.x und HBase 1.1. Es unterstützt auch HBase 0.98 mit Solr 5.x. (Beachten Sie, dass HBase-Versionen vor 0.98 nicht mit unseren Änderungen getestet wurden).

Wir werden diesen Beitrag zurückgeben, aber während wir den Patch zusammenstellen, können Sie unseren Code mit Solr 5.x verwenden.

Repo-Adresse: https://github.com/Lucidworks/hbase-indexer.

Sturm für Solr

Mein Kollege Tim Potter hat diese Integration entwickelt und bereits im Mai 2015 in dem Blogbeitrag Integration von Storm und Solr beschrieben. Dies ist ein SDK zur Entwicklung von Storm-Topologien, die Inhalte in Solr indizieren.

Als SDK enthält es ein Test-Framework und Tools, mit denen Sie Ihre Topologie für die Verwendung in einem Produktionscluster vorbereiten können. In der README finden Sie ein schönes Beispiel mit Twitter, das Sie für Ihren eigenen Anwendungsfall anpassen können.

Repo-Adresse: https://github.com/Lucidworks/storm-solr.

Spark für Solr

Ein weiteres Projekt von Tim Potter, das wir im August 2015 veröffentlicht haben und das im Blogbeitrag Solr as an Apache Spark SQL DataSource besprochen wurde. Auch hier handelt es sich um ein SDK für die Entwicklung von Spark-Anwendungen, einschließlich eines Test-Frameworks und eines detaillierten Beispiels, das Twitter verwendet.

Repo-Adresse: https://github.com/Lucidworks/spark-solr.

 

Bild vom Buchumschlag von Jean de Brunhoffs„Babar und der Weihnachtsmann„.

You Might Also Like

Geschützt: Von der Suche zu Lösungen: Wie KI-Agenten den digitalen Handel im Jahr 2025 antreiben können

Es gibt keinen Textauszug, da dies ein geschützter Beitrag ist.

Read More

Wie ein B2B-Vertriebsriese die intelligente Suche einsetzt, um Inflation, Tarife und mehr als 10.000 tägliche Suchanfragen zu bewältigen

Lernen Sie Ryan Finley kennen: Ein 17-jähriger Suchveteran, der die Unternehmenssuche zur...

Read More

Wie Einzelhändler unser Business Analytics Dashboard zur Umsatzsteigerung nutzen

Entdecken Sie, wie führende Einzelhändler das Business Analytics Dashboard von Lucidworks nutzen,...

Read More

Quick Links