Integration von fortgeschrittener Textanalyse in Solr/Lucene

„Metadaten sind König!“ So verkündete Steve Kearns von Basis Technology, dem Platin-Sponsor der Lucene Revolution, zu Beginn dieser Sitzung an…

„Metadaten sind König!“ So verkündete Steve Kearns von Basis Technology, dem Platin-Sponsor der Lucene Revolution, zu Beginn dieser Sitzung an Tag 1 der Konferenz, bei der nur Stehplätze zur Verfügung standen. Und warum? Weil sie eine Möglichkeit bieten, ansonsten unstrukturierte Daten mit einem beträchtlichen Maß an Struktur zu versehen.

Hier sind die Folien für diese Sitzung.

Unter dieser Prämisse erörterte Steve die Verwendung und Integration fortschrittlicher Analysen in die Dokumentenverarbeitungspipeline und konzentrierte sich dabei auf die drei Ebenen, auf die sie anwendbar sind: die Dokumenten-, die Unterdokumenten- und die dokumentenübergreifende Ebene.

Zu den Metadaten, die auf Dokumentenebene abgeleitet werden können, gehört die Identifizierung der Sprache, in der das Dokument verfasst ist, und der Kategorie, in der es richtig eingeordnet ist. Steve geht auf einige besonders interessante Herausforderungen ein, die asiatische Sprachen mit sich bringen, und erwähnt die Tatsache, dass diese Analyseebene für die Erstellung von Dashboards für die Dokumentensuche nützlich ist, die denjenigen, die für die Bewertung und Aufrechterhaltung der Qualität der Dokumentensuche verantwortlich sind, von Nutzen sind.

Die Menge an Informationen, die aus der Analyse von Unterdokumenten gewonnen werden kann, ist immens. Einige der Prozesse, die auf dieser Ebene zum Einsatz kommen, sind das grundlegende Stemming und seine Verwandtschaft, die Lemmatisierung. Zu den fortgeschritteneren Techniken gehören die Extraktion von Entitäten, die Extraktion von Beziehungen und Ereignissen, die Stimmungsanalyse und die Zuordnung der extrahierten Elemente zu realen Konzepten in einem Prozess, der als „Co-Referenzauflösung“ bezeichnet wird.

Zu den wichtigsten Verwendungszwecken der dokumentenübergreifenden Analyse gehört beispielsweise das Clustering von Dokumenten, d. h. das Auffinden einer Gruppe von Dokumenten, die einander „ähnlicher“ sind als eine andere Gruppe.

Ein Aspekt der Präsentation, der für Solr-Benutzer von großem Interesse ist, befasst sich mit der Integration von Analysefunktionen, wie sie von Basis angeboten werden, in die Solr-Pipeline. Es überrascht nicht, dass es viele Möglichkeiten gibt, dies zu tun. Die wichtigste Frage, die Sie beantworten müssen, ist: Soll ich die Analysen innerhalb von Solr ausführen, oder soll ich sie als externe Aufrufe behandeln?

Steve beendete diesen nützlichen Vortrag mit einigen Ansätzen für beide Techniken, einschließlich der Verarbeitung von UpdateRequest und einer Liste einiger Tools (z.B. UIMA, GATE und OpenPipeline), die Sie in Betracht ziehen sollten, wenn die Zeit für die Implementierung gekommen ist.

Cross-posted mit Lucene Revolution Blog. Tony Barreca ist ein Gast-Blogger. Dies ist eine von mehreren Zusammenfassungen von Präsentationen auf der Konferenz.

You Might Also Like

Vom Suchunternehmen zum praktischen KI-Pionier: Unsere Vision für 2025 und darüber hinaus

CEO Mike Sinoway gibt Einblicke in die Zukunft der KI und stellt...

Read More

Wenn KI schief geht: Fehlschläge in der realen Welt und wie man sie vermeidet

Lassen Sie nicht zu, dass Ihr KI-Chatbot einen 50.000 Dollar teuren Tahoe...

Read More

Lucidworks Kernpakete: Branchenoptimierte KI-Such- und Personalisierungslösungen

Entdecken Sie unsere umfassenden Core Packages, die Analytics Studio, Commerce Studio und...

Read More

Quick Links