Data.gov auf Solr
Auf der ApacheCon habe ich diese Woche „Rapid Prototyping mit Solr“ präsentiert. Es ist das dritte Mal, dass ich eine…
Auf der ApacheCon habe ich diese Woche „Rapid Prototyping mit Solr“ präsentiert. Es ist das dritte Mal, dass ich eine Präsentation mit demselben Titel gehalten habe. Ganz im Sinne des Rapid Prototyping-Themas habe ich jedes Mal einen neuen Prototyp nur etwa einen Tag vor der Präsentation erstellt. Bei der Lucene EuroCon bestand der Prototyp aus Teilnehmerdaten, einer Treemap-Visualisierung und einer niedlichen kleinen Solr-gesteuerten „App“, mit der Teilnehmer nach dem Zufallsprinzip für die Giveaways der Konferenz ausgewählt wurden. Bei einem kürzlich abgehaltenen Lucid-Webinar war der Prototyp vielseitiger einsetzbar, indem er Rich Documents einbrachte und durchsuchbar machte und Dateitypen mit einer Tortendiagramm-Visualisierung facettierte.
Dieses Mal habe ich mich für den Datensatz von Data.gov entschieden, der gut zur Open-Source-Aura der ApacheCon und zur Unterstützung von Open Source for America durch Lucid Imagination passt, das sich für Open Source in der US-Bundesregierung einsetzt. Der erstellte Prototyp umfasst Facetten-Suche, Begriffsvorschläge für Abfragen, Hervorhebung von Treffern, Clustering von Ergebnissen, Rechtschreibprüfung, Dokumentendetails und eine zusätzliche Visualisierung in Form eines Venn-Diagramms.
Der Prototyp wurde in diesen Schritten gebaut:
- Lucidworks für Solr installieren
- Holen Sie sich die CSV-Datei des Data.gov-Katalogs
- Iterieren Sie ein wenig mit dem CSV-Update-Handler von Solr (die lustigste Art, Daten in Solr zu erhalten) und basteln Sie ein wenig am Solr-Schema herum
- Anpassung der Solr-Konfiguration und der UI-Vorlagen, um ein ansprechendes Erscheinungsbild zu erhalten, Hinzufügen einer Dokumentendetailseite und einer Venn-Diagramm-Visualisierung zum Vergleich von Abfrageüberschneidungen
Voilà (klicken Sie auf die Bilder für eine Großansicht):
Dies ist nicht das erste Mal, dass wir mit Data.gov-Daten spielen… Anfang dieses Jahres hat Hoss die Statistikkomponente von Solr an einem anderen Datensatz von Data.gov demonstriert.
Meine ApacheCon-Folien sind bei Slideshare veröffentlicht und hier eingebettet:
https://www.slideshare.net/erikhatcher/rapid-prototyping-with-solr-5675936
Den gesamten Code und eine Anleitung, wie Sie den gesamten Prototyp selbst ausführen können, finden Sie hier: https://github.com/erikhatcher/solr-rapid-prototyping/tree/master/ApacheCon2010