Lucene und Protokolle: Update
Ein paar weitere Anmerkungen zu diesem Thema seit dem Webinar von vor ein paar Wochen:
fragt Steve Arnold von Beyond Search in einem Blogbeitrag:
…der Gedanke, Protokolldateien zu integrieren, ist gut, aber ich habe mich gefragt, wie lange es dauert, große Protokolldateien zu saugen, Deltas zu ermitteln und dann die Indizes zu aktualisieren.
Wir haben einige der Informationen aus dem Webinar in einer Fallstudie über unsere Arbeit mit Boomi veröffentlicht:
Der Logging- und Suchdienst zeichnet sich durch häufige Commits aus, um die Daten für die Suche verfügbar zu machen; alle 5 Sekunden oder 10.000 Transaktionsnachrichten. … Täglich werden zwischen zwei und zehn Millionen Protokolltransaktionen erzeugt, die jeweils zwei oder mehr Solr-Einträge auslösen können. Boomi speichert die Protokolleinträge über einen Zeitraum von 30 Tagen.
Symplicity, ein Integrator, der sich auf Anwendungen für Behörden und Universitäten spezialisiert hat, hat einige interessante neue Beiträge zur Verwendung von Solr für diese Art von Anwendungen veröffentlicht. Zu seinen Solr Referenzen gehört fbo.gov, eine Website, die über die General Services Administration nach Geschäftsmöglichkeiten innerhalb der Bundesregierung sucht:
Eine Zeit lang haben wir eine kommerzielle Lösung verwendet, um unsere Protokolle zu zentralisieren und zu durchsuchen, aber sie wollten uns Zehntausende von Dollar für nur ein Gigabyte/Tag mehr an indizierten Daten berechnen. Also sagte ich: Vergessen Sie es, ich schreibe meine eigene Lösung!
Da wir Solr bereits für einige unserer anderen Backend-Suchsysteme verwenden, kam ich auf die Idee, alle unsere Protokolle in Solr zu indizieren. Ich habe einen Daemon in Perl geschrieben, der auf dem Syslog-Port lauscht und das Syslog jedes einzelnen Systems an diesen Server weiterleitet. Von dort aus schreibt dieser Daemon an einen Solr-Indizierungsserver, nachdem er sie in Felder wie Datum/Uhrzeit, Host, Programm, pid, Text usw. geparst hat. Ich habe dann ein cooles Javascript/Ajax-Web-Frontend für die Solr-Suche geschrieben und bam. Durchsuchen Sie alle unsere Syslogs in Echtzeit über eine Weboberfläche, und das ganz ohne Kosten!