Integration von fortgeschrittener Textanalyse in Solr/Lucene
„Metadaten sind König!“ So verkündete Steve Kearns von Basis Technology, dem Platin-Sponsor der Lucene Revolution, zu Beginn dieser Sitzung an…
„Metadaten sind König!“ So verkündete Steve Kearns von Basis Technology, dem Platin-Sponsor der Lucene Revolution, zu Beginn dieser Sitzung an Tag 1 der Konferenz, bei der nur Stehplätze zur Verfügung standen. Und warum? Weil sie eine Möglichkeit bieten, ansonsten unstrukturierte Daten mit einem beträchtlichen Maß an Struktur zu versehen.
Hier sind die Folien für diese Sitzung.
Unter dieser Prämisse erörterte Steve die Verwendung und Integration fortschrittlicher Analysen in die Dokumentenverarbeitungspipeline und konzentrierte sich dabei auf die drei Ebenen, auf die sie anwendbar sind: die Dokumenten-, die Unterdokumenten- und die dokumentenübergreifende Ebene.
Zu den Metadaten, die auf Dokumentenebene abgeleitet werden können, gehört die Identifizierung der Sprache, in der das Dokument verfasst ist, und der Kategorie, in der es richtig eingeordnet ist. Steve geht auf einige besonders interessante Herausforderungen ein, die asiatische Sprachen mit sich bringen, und erwähnt die Tatsache, dass diese Analyseebene für die Erstellung von Dashboards für die Dokumentensuche nützlich ist, die denjenigen, die für die Bewertung und Aufrechterhaltung der Qualität der Dokumentensuche verantwortlich sind, von Nutzen sind.
Die Menge an Informationen, die aus der Analyse von Unterdokumenten gewonnen werden kann, ist immens. Einige der Prozesse, die auf dieser Ebene zum Einsatz kommen, sind das grundlegende Stemming und seine Verwandtschaft, die Lemmatisierung. Zu den fortgeschritteneren Techniken gehören die Extraktion von Entitäten, die Extraktion von Beziehungen und Ereignissen, die Stimmungsanalyse und die Zuordnung der extrahierten Elemente zu realen Konzepten in einem Prozess, der als „Co-Referenzauflösung“ bezeichnet wird.
Zu den wichtigsten Verwendungszwecken der dokumentenübergreifenden Analyse gehört beispielsweise das Clustering von Dokumenten, d. h. das Auffinden einer Gruppe von Dokumenten, die einander „ähnlicher“ sind als eine andere Gruppe.
Ein Aspekt der Präsentation, der für Solr-Benutzer von großem Interesse ist, befasst sich mit der Integration von Analysefunktionen, wie sie von Basis angeboten werden, in die Solr-Pipeline. Es überrascht nicht, dass es viele Möglichkeiten gibt, dies zu tun. Die wichtigste Frage, die Sie beantworten müssen, ist: Soll ich die Analysen innerhalb von Solr ausführen, oder soll ich sie als externe Aufrufe behandeln?
Steve beendete diesen nützlichen Vortrag mit einigen Ansätzen für beide Techniken, einschließlich der Verarbeitung von UpdateRequest
und einer Liste einiger Tools (z.B. UIMA, GATE und OpenPipeline), die Sie in Betracht ziehen sollten, wenn die Zeit für die Implementierung gekommen ist.
Cross-posted mit Lucene Revolution Blog. Tony Barreca ist ein Gast-Blogger. Dies ist eine von mehreren Zusammenfassungen von Präsentationen auf der Konferenz.