Open-Source-Hadoop-Konnektoren für Solr
Lucidworks freut sich, Ihnen mitteilen zu können, dass mehrere unserer Konnektoren für die Indizierung von Inhalten aus Hadoop in Solr…
Lucidworks freut sich, Ihnen mitteilen zu können, dass mehrere unserer Konnektoren für die Indizierung von Inhalten aus Hadoop in Solr jetzt Open Source sind.
Wir haben sechs davon, mit Unterstützung für Spark, Hive, Pig, HBase, Storm und HDFS, die alle auf Github verfügbar sind. Alle funktionieren mit Solr 5.x und enthalten Optionen für Kerberos-gesicherte Umgebungen, falls erforderlich.
HDFS für Solr
Dies ist ein Job-Jar für Hadoop, das MapReduce verwendet, um Inhalte für die Indizierung vorzubereiten und Dokumente an Solr zu übertragen. Es unterstützt Solr im Standalone-Modus oder im SolrCloud-Modus.
Es kann sich mit dem Standard-Hadoop-HDFS oder dem MapR-FS von MapR verbinden.
Eine wichtige Funktion dieses Connectors ist der Ingest-Mapper, der Inhalte aus verschiedenen Originalformaten in Solr-fähige Dokumente konvertiert. CSV-Dateien, ZIP-Archive, SequenceFiles und WARC werden unterstützt. Grok und reguläre Ausdrücke können ebenfalls zum Parsen von Inhalten verwendet werden. Wenn Sie sich noch weitere Funktionen wünschen, lassen Sie es uns wissen!
Repo-Adresse: https://github.com/Lucidworks/hadoop-solr.
Hive für Solr
Dies ist ein Hive SerDe, der Inhalte aus einer Hive-Tabelle in Solr indizieren oder Inhalte aus Solr lesen kann, um eine Hive-Tabelle zu füllen.
Repo-Adresse: https://github.com/Lucidworks/hive-solr.
Schwein für Solr
Dies sind Pig-Funktionen, die das Ergebnis eines Pig-Skripts an Solr (Standalone oder SolrCloud) ausgeben können.
Repo-Adresse: https://github.com/Lucidworks/pig-solr.
HBase Indexer
Der hbase-indexer ist ein Dienst, der die HBase-Replikationsfunktion nutzt, um Inhalte abzufangen, die in HBase gestreamt werden, und sie in einen Solr-Index zu replizieren.
Unsere Arbeit ist eine Abspaltung eines NGDATA-Projekts, aber aktualisiert für Solr 5.x und HBase 1.1. Es unterstützt auch HBase 0.98 mit Solr 5.x. (Beachten Sie, dass HBase-Versionen vor 0.98 nicht mit unseren Änderungen getestet wurden).
Wir werden diesen Beitrag zurückgeben, aber während wir den Patch zusammenstellen, können Sie unseren Code mit Solr 5.x verwenden.
Repo-Adresse: https://github.com/Lucidworks/hbase-indexer.
Sturm für Solr
Mein Kollege Tim Potter hat diese Integration entwickelt und bereits im Mai 2015 in dem Blogbeitrag Integration von Storm und Solr beschrieben. Dies ist ein SDK zur Entwicklung von Storm-Topologien, die Inhalte in Solr indizieren.
Als SDK enthält es ein Test-Framework und Tools, mit denen Sie Ihre Topologie für die Verwendung in einem Produktionscluster vorbereiten können. In der README finden Sie ein schönes Beispiel mit Twitter, das Sie für Ihren eigenen Anwendungsfall anpassen können.
Repo-Adresse: https://github.com/Lucidworks/storm-solr.
Spark für Solr
Ein weiteres Projekt von Tim Potter, das wir im August 2015 veröffentlicht haben und das im Blogbeitrag Solr as an Apache Spark SQL DataSource besprochen wurde. Auch hier handelt es sich um ein SDK für die Entwicklung von Spark-Anwendungen, einschließlich eines Test-Frameworks und eines detaillierten Beispiels, das Twitter verwendet.
Repo-Adresse: https://github.com/Lucidworks/spark-solr.
Bild vom Buchumschlag von Jean de Brunhoffs„Babar und der Weihnachtsmann„.