Noob* Anmerkungen: Protokollanalyse mit Fusion

Fusion Dashboards sind ein leistungsstarkes Tool zur Analyse von Suchprotokollen über Fusion-Sammlungen. Ein Fusion Dashboard verfügt über ein oder mehrere Steuerelemente, die Suchbegriffe als Eingaben verwenden, und eine oder mehrere Visualisierungen der Suchergebnisse, darunter Diagramme, Grafiken, Tabellen und Karten (für Geodaten). Dashboards werden von dem Open-Source-Visualisierungstool Banana unterstützt. Banana ist eine Portierung von Kibana 3. Ein Banana-Dashboard ist ein Satz von JavaScript-Komponenten für HTML5. Wo Kibana mit Lucene kommuniziert, kommuniziert Banana mit Solr. Die Leistungsfähigkeit der Solr-Facetten bietet interessante Aggregationen der Abfrageergebnisse; die Leistungsfähigkeit von clientseitigem JavaScript bietet ein dynamisches, reaktionsschnelles Browsing-Erlebnis.

Wenn Sie eine Fusion-Sammlung erstellen, z.B. eine Sammlung mit dem Namen „MyDataMyWay“, erstellt Fusion automatisch eine Sammlung mit dem Namen „MyDataMyWay_logs“ über die Suchprotokolle, die von den Fusion Dashboards für Suchanalyseberichte verwendet wird. Die Leistungsfähigkeit des Dashboards-Tools kann genutzt werden, um dieselben Arten von Analysen über Suchprotokolle von anderen Quellen zu erstellen.

Dieser Beitrag zeigt Ihnen, wie Sie ein „Hello World“ Dashboard erstellen. Wenn Sie wissen möchten, was Sie mit Fusion Log Analytics wirklich tun können, besuchen Sie unser nächstes Webinar: Schnellere Log-Indizierung mit Fusion. Da ich für meine Mit-Novizen blogge, fange ich ganz am Anfang an: wie man Fusion installiert und ausführt. Nicht-Anfänger können den Abschnitt Bereit überspringen und zum Abschnitt Einstellen übergehen, um zu sehen, wie Sie Ihre Protokolldaten indizieren. Wenn Sie bereits eine Fusion-Sammlung über Ihre Protokolldaten haben und nur verstehen wollen, wie Sie das Dashboards-Tool verwenden, fahren Sie mit dem Abschnitt Go fort.

Bereit: Fusion installieren und starten

 

Downloaden und entpacken Sie die Fusion-Distribution

Fusion wird als gzipped tar-Datei oder als komprimierte zip-Datei verteilt, die Sie direkt verwenden können, um Fusion als Einzel-Server-Installation auszuführen. Neben der Fusion-Benutzeroberfläche und den Backend-Diensten enthält dieses Paket auch eine Solr-Installation. Die Linux- und Mac-Distribution wird in ein Verzeichnis namens „fusion“ entpackt, während die Windows-Distribution in ein Verzeichnis entpackt wird, das ein einziges Unterverzeichnis namens „fusion“ enthält. Dieses Verzeichnis ist das Heimatverzeichnis von Fusion, $FUSION. Sie müssen ein Java 7 oder Java 8 JDK installiert haben.

Fusion starten, Admin-Passwort festlegen

Das Skript $FUSION/bin/fusion wird zum Starten und Stoppen von Fusion über die Befehlszeilenargumente „start“ bzw. „stop“ verwendet. Für Windows lautet dieses Skript "$FUSIONbinfusion.cmd". So starten Sie Fusion von einem Terminalfenster aus (Linux oder Mac):

  >$FUSION/bin/fusion start

Ein erfolgreicher Start führt zu 4 Zeilen Ausgabe, die die Fusion-Komponenten und die Ports, die sie abhören, anzeigt:

  2015-04-10 12:26:44Z Starting Fusion Solr on port 8983
  2015-04-10 12:27:14Z Starting Fusion API Services on port 8765
  2015-04-10 12:27:19Z Starting Fusion UI on port 8764
  2015-04-10 12:27:25Z Starting Fusion Connectors on port 8984

Die Online-Dokumentation zu Fusion enthält vollständige Installationsanweisungen und Tipps zur Fehlerbehebung.

Sobald Fusion läuft, melden Sie sich bei der Fusion-Benutzeroberfläche unter http://localhost:8764/ an. Nach dem ersten Start müssen Sie zunächst das Admin-Passwort festlegen. Als nächstes haben Sie die Möglichkeit, Ihren Download zu registrieren. Danach und bei allen weiteren Anmeldungen wird das Launchpad der Fusion-Benutzeroberfläche angezeigt:

Das Tool ganz links auf dem Launchpad ist das Fusion Admin-Tool. Das Werkzeug ganz rechts ist das Werkzeug Dashboards. Das Admin-Tool wird zum Erstellen von Fusion-Sammlungen verwendet. Mit dem Dashboards-Tool können Sie diese Sammlungen visualisieren.

Setzen: Holen Sie sich Ihre Protokolle

 

Je mehr Informationen und Strukturen aus der Protokolldatei extrahiert und in einem Solr-Dokument modelliert werden können, desto mehr Möglichkeiten für Analysen und Visualisierungen gibt es. Die Protokolldaten müssen mindestens enthalten:

  • einen Zeitstempel in einem zulässigen Standardformat für Datum und Uhrzeit
  • Textnachricht(en), die unstrukturiert oder halbstrukturiert sind

Für dieses Beispiel verwende ich eine Protokolldatei im .csv-Format, die ursprünglich Teil eines Datensatzes eines Kaggle-Wettbewerbs für maschinelles Lernen war. Die ursprüngliche Protokolldatei enthält sechs Spalten, hier verwenden wir nur drei davon: item id, query string und query timestamp. Die Daten sehen wie folgt aus:

  doc_id_s,query_s,query_time
  1004622,"Ghost adventurers","2011-10-10 23:13:07.632 EST"
  1004622,"Ghost sniper 360","2011-09-14 11:11:17.059 EST"
  1004622,"Sniper ghost warrior","2011-09-07 20:31:05.828 EST"
  1004622,"Sniper ghost","2011-10-16 11:50:43.068 EST"
  1004622,"Sniper x box","2011-09-20 12:39:31.64 EST"
  1004622,"Sniper: Ghost Warrior","2011-10-08 14:52:11.869 EST"
  1004622,"Snipper ghost recon","2011-10-24 12:07:01.265 EST"

Erstellen Sie eine Fusion-Sammlung für Ihre Daten

Um eine neue Fusion-Sammlung zu erstellen, verwende ich das Fusion Admin-Tool. Im Hauptfenster des Admin-Tools klicke ich in der linken Navigationsleiste auf „Sammlungen“ und dann auf die Schaltfläche „Sammlung hinzufügen“. Geben Sie einen Sammlungsnamen ein, z.B. „myData“, und klicken Sie dann auf die Schaltfläche „Hinzufügen“. Dadurch werden eine Sammlung mit dem Namen „myData“ und Standard-Index- und Abfrage-Pipelines erstellt, die beide den Namen „myData-default“ tragen.

Abrufen und Indizieren Ihrer Daten

Das Einlesen und Indizieren von Daten erfolgt über ein Fusion-Datenquellen-Konfigurationsobjekt, das die Kopplung zwischen einem Daten-Repository, einer Fusion-Sammlung und der Datenverarbeitungspipeline herstellt. Um eine Datenquelle zu konfigurieren und auszuführen, die die Datei „myData.csv“ abruft und indiziert, gehen Sie zur Startseite der Sammlung „myData“, wählen Sie die Registerkarte „Datenquellen“ und klicken Sie auf die Schaltfläche „Datenquelle hinzufügen“. Daraufhin wird das Konfigurationsfenster für die Datenquelle angezeigt. Konfigurieren Sie es wie folgt:

  • Datenquelle „Dateisystem“, „lokal“ wählen
  • Wählen Sie die Indizierungspipeline „myData-default“.
  • Benennen Sie die Datenquelle „myData-source“.
  • geben Sie den vollständigen Pfad zur Datei „myData.csv“ im Abschnitt „Start Links“ ein.

Hier sehen Sie das Konfigurationsfenster mit den Kreisen, die die wichtigsten Aktionen anzeigen.

Beachten Sie, dass die Schaltfläche „Erweitert“ in der oberen rechten Ecke auf „Ein“ gesetzt wurde. Wenn Sie diese Option aktivieren, können Sie die gesamte Palette der Konfigurationsfunktionen nutzen.

Die Registerkarte „Aufteilung“ wird verwendet, um jede Zeile der CSV-Datei in ein Solr-Dokument aufzuteilen:.

Das Mappen von CSV-Daten in ein Solr-Dokument mit Feldern ist einfach, vorausgesetzt, es gibt eine Eins-zu-Eins-Zuordnung zwischen den Datenspalten und den Dokumentfeldern, und das ist hier der Fall. Die Spalten in „myData.csv“ sind:

  • doc_id_s : string Daten
  • Abfrage_s : String Daten
  • query_time : Zeitdaten

Die Spaltenüberschriften „doc_id_s“ und „query_s“ werden automatisch in Stringfelder umgewandelt, da Feldnamen, die auf „_s“ enden, automatisch als Stringfelder eingegeben werden. Um das Feld query_time als Datums-/Zeitwert zu indizieren, sollte der Feldname entweder „query_time_dt“ oder „query_time_tdt“ lauten; diese geben die Solr-Typen datetime bzw. trie_datetime an. Letzteres ist weitaus effizienter als Ersteres.

Die Registerkarte „Sonstiges“ enthält die Mapping-Steuerelemente. Auf der erweiterten Registerkarte „Sonstiges“ wird die Feldzuordnung konfiguriert.

Nachdem Sie diese Konfiguration gespeichert haben, klicken Sie auf die Schaltfläche „Ausführen“ unter dem Namen der Datenquelle. Nach Abschluss sollte die Anzahl der Dokumente in der Sammlung mit der Anzahl der Datenzeilen (abzüglich der Kopfzeile) in der Eingabedatei übereinstimmen.

Null Dokumente bedeutet, dass die Anfrage aus irgendeinem Grund fehlgeschlagen ist. Alle anderen Unstimmigkeiten weisen auf Probleme mit dem Format oder dem Inhalt eines oder mehrerer Protokolleinträge hin. Haben Sie Geduld. Prüfen Sie die Fusion-Protokolldateien in den Verzeichnissen $FUSION/logs/api und $FUSION/logs/connectors.

Mit dem Fusion Admin-Suchwerkzeug bestätigen wir, dass der Inhalt der Dokumente in den richtigen Feldern mit den richtigen Formaten enthalten ist.

Andere Arten von Protokolldaten können mit der entsprechenden Kombination aus Konnektor und Pipeline eingelesen werden. Varianten des obigen Splitting/Mapping-Ansatzes verarbeiten halbstrukturierte oder unstrukturierte Protokollformate wie syslog oder log4j. Fusion bietet spezielle Konnektoren für andere Datenquellen, wie HDFS und JDBC-Protokolldaten. Fusion 1.4 wird Konnektoren für LogStash und FluentD (Flume) enthalten.

Los geht’s: Visualisieren Sie Ihre Logfile-Daten mit Fusion Dashboards

Das Tool Fusion Dashboards ist das Symbol ganz rechts auf der Fusion UI Launchpad-Seite. Sie können es direkt aufrufen unter: http://localhost:8764/banana/index.html#/dashboard. Wenn Sie das Dashboards-Tool über das Fusion-Launchpad öffnen, wird es in einer neuen Registerkarte mit der Bezeichnung „Banana 3“ angezeigt.

Zeitreihen-Dashboards zeigen Trends im Laufe der Zeit an, indem sie das Zeitstempelfeld verwenden, um Abfrageergebnisse zu aggregieren. Um ein Zeitreihen-Dashboard über die Sammlung „myData“ (d.h. die Sammlung, die Ihre Protokolldaten enthält) zu erstellen, verwenden Sie das Seitensymbol in der oberen rechten Ecke des oberen Menüs, das ein Dropdown-Menü bietet, aus dem Sie entweder ein Zeitreihen- oder ein Nicht-Zeitreihen-Dashboard auswählen können:

Wenn Sie die Option „Zeitreihen-Dashboard“ wählen, wird das Panel „Neue Dashboard-Einstellungen“ angezeigt, in dem Sie die Sammlung konfigurieren, aus der die Daten geholt werden sollen, sowie das Feld, das für die Aggregation der Zeiten verwendet wird, die entweder im Format _dt (Solr datetime) oder _tdt (Solr trie-datetime) vorliegen müssen. Letzteres wird gegenüber ersterem empfohlen.

In diesem Beispiel ist die Sammlung „myData“ und das Zeitfeld ist „query_time_tdt“. Das neu erstellte Dashboard heißt „New Time Series Dashboard“ und enthält die folgenden Anzeigen:

  • Zeitfenster – zur Angabe des Zeitraums, in dem gesucht werden soll
  • Suche – beliebige Solr-Abfrage
  • Gesamttreffer – die Ergebnisse der zuletzt eingegebenen Abfrage
  • Filter – Steuerelemente für die Solr-Abfrage
  • Histogramm – zeigt aggregierte Ereignisse
  • Tabelle – zeigt ausgewählte Felder der von der Abfrage zurückgegebenen Dokumente an

Hier sehen Sie die erste Anzeige der Daten, die zwischen August und November 2011 gesammelt wurden:

Alle Elemente dieses Dashboards können angepasst werden, indem Sie auf das Zahnradsymbol klicken, das dem jeweiligen Element zugeordnet ist. Im Screenshot unten sehen Sie die Steuerelemente auf Seitenebene, rot eingekreist, das Symbol ganz rechts in der Titelleiste der Seite:

Wenn Sie auf dieses Symbol klicken, können Sie die Eigenschaften der Seite bearbeiten. Im Screenshot unten sehen Sie die Seite zur Steuerung der Dashboard-Einstellungen, die vier Registerkarten umfasst. Die Registerkarte „Allgemein“ dient zum Ändern des Seitentitels. Die Registerkarte „Zeilen“ steuert die Visualisierungen pro Zeile, „Steuerelemente“ sind Steuerelemente auf Seitenebene und die Registerkarte „Solr“ steuert Einstellungen: die abzufragende Sammlung, den Namen des Feldes, das als zeitliches Sortierfeld verwendet wird, und die Standardabfrageparameter.

Jedes Widget auf der Seite hat ein eigenes zahnradförmiges Konfigurationssymbol sowie ein Steuerelement zum Ein- und Ausblenden. Wenn Sie auf das Konfigurationssymbol klicken, öffnet sich ein Einstellungsfenster mit einer Reihe von Steuerelementen für das jeweilige Widget. Nachdem Sie den Titel des Dashboards geändert, die 2. Zeile der Anzeige eingeklappt und die 3. und 4. Zeile wieder eingefügt haben, sieht die Anzeige des Dashboards wie folgt aus:

Dashboards sind in Zeilen organisiert. Um eine neue Anzeige zu einem Dashboard hinzuzufügen, wählen Sie die Zeile aus, zu der Sie diese Anzeige hinzufügen möchten. Daraufhin wird das Fenster Zeileneinstellungen geöffnet, in dem Sie die Anzeigen in dieser Zeile neu anordnen und ergänzen können:

Im obigen Screenshot fügen wir ein Panel „Begriffe“ hinzu, das die Anzahl der Facetten, die von einer Solr-Facettenabfrage zurückgegeben werden, visuell anzeigt. Der folgende Screenshot zeigt, wie Sie die Facetteninformationen als Tortendiagramm konfigurieren:

Sobald diese Konfiguration eingerichtet ist, enthält die Dashboard-Anzeige ein Tortendiagramm mit den Ergebnissen nach dem Feld „doc_id_s“ (beachten Sie, dass es sich hierbei um eine Element-ID aus einer externen Quelle handelt, nicht um eine Solr-Dokument-ID) für die Ergebnisse einer Dashboard-Suche über die Abfragezeichenfolge „xbox“:

Um die Datenanzeige eines Panels besser zu verstehen, klicken Sie auf das „Info“-Symbol des Panels. Dadurch wird die Solr-Abfrage angezeigt, mit der dieses Panel gefüllt wurde:

Sie können Ihre Dashboard-Konfiguration speichern, Sie können sie erweitern, und insgesamt erhalten Sie mit Fusion Ihre Logfile-Daten auf Ihre Weise.

Schneller gehen! Webinar: Schnellere Protokollindizierung mit Fusion

Webinar: Schnellere Protokollindizierung mit Fusion
Datum: Donnerstag, 23. April 2015
Zeit: 11:00 Uhr Pacific Daylight Time

Lernen Sie mit Timothy Potter, Senior Engineer und Solr Committer bei Lucidworks, unsere Fusion-basierte Indizierungslösung kennen, die für Solr-Implementierungen mit über 1 Milliarde Log-Events pro Monat optimiert ist.

*Wagen Sie es, neue Dinge zu lernen, wagen Sie es, ein Noob zu sein

You Might Also Like

Dritte jährliche KI-Benchmarkstudie 2025: Was wir im B2C-E-Commerce sehen

Laden Sie die B2C-KI-Benchmark-Einblicke 2025 von Lucidworks herunter. Werfen Sie einen Blick...

Read More

B2B-KI-Benchmarkstudie 2025: Was wir in den Schützengräben sehen

Laden Sie die B2B-KI-Benchmark-Highlights 2025 von Lucidworks herunter. Sehen Sie sich die...

Read More

Vom Suchunternehmen zum praktischen KI-Pionier: Unsere Vision für 2025 und darüber hinaus

CEO Mike Sinoway gibt Einblicke in die Zukunft der KI und stellt...

Read More

Quick Links