Solr und Strafverfolgung: Hochrelevante Ergebnisse können ein Verbrechen sein

Stellen Sie sich vor, dass Sie Daten aus 200 verschiedenen Quellen integrieren und durchsuchen müssen, von denen jede eine andere Struktur verwendet (wenn sie überhaupt eine Struktur verwendet). Ihre Daten sind möglicherweise unvollständig, dieselben Informationen werden von verschiedenen Quellen auf unterschiedliche Weise dargestellt und sind oft vage. Oh, und wenn ein Benutzer mit einer einfachen Google-ähnlichen Suche nicht das richtige Ergebnis findet, kann jemand buchstäblich mit einem Mord davonkommen.

Willkommen in der Welt von Ronald Mayer. In seinem Vortrag an Tag 2 der Lucene Revolution beschrieb er, wie Forensic Logic Daten von lokalen Polizeidienststellen, Gerichten und sogar Bundesbehörden zusammenführt, so dass Strafverfolgungsbeamte Informationen über Verbrechen und Verdächtige nicht nur in ihrem eigenen Zuständigkeitsbereich, sondern auch in den umliegenden Gebieten erhalten können.

Folien für diese Sitzung:

Er steht vor vielen Herausforderungen, nicht zuletzt wegen der unterschiedlichen Datenformate. Man sollte meinen, dass es dafür einen Standard gibt, und wie er feststellt, gibt es den auch. In der Tat gibt es eine Menge davon. In Wirklichkeit sind die Standards so umfangreich, dass die meisten Agenturen nur eine Teilmenge und ihre eigenen Erweiterungen verwenden. Und dabei sind die Agenturen noch gar nicht mitgezählt, die alle ihre Daten in Word-Dateien in einem Ordner auf dem Computer eines Mitarbeiters haben. (Auch Daten aus externen Quellen sind hier nicht berücksichtigt. Anscheinend sind Gangs bei MySpace sehr beliebt. Wer hätte das gedacht?)

Sobald sie eine Umwandlung für das Hinzufügen der Daten einer neuen Agentur erstellt haben, müssen sie sich mit einer ganzen Reihe praktischer Probleme auseinandersetzen. So sind zum Beispiel „in der Dämmerung“ und „in der Nähe einer Grundschule im Schulbezirk“ durchaus zulässige Anfragen, und ihr System muss dies berücksichtigen können. Sie müssen auch in der Lage sein, eine Aussage wie „Verdächtiger ist weiß, männlich, ca. 1,80 m groß, trägt eine rote Baseballmütze und eine schwarze Lederjacke“ als „groß, weiß, Baseballmütze, schwarze Lederjacke“ auszugeben. Die Entitätsextraktion und die Hilfe von Basis Technology-Produkten helfen dabei, ein Adjektiv mit einem Substantiv zu assoziieren, was die Sache ein wenig einfacher macht.

Interessanterweise muss Forensic auch in die andere Richtung arbeiten. Wenn all diese Informationen nach Feldern kodiert wären, könnte man sie nicht mit einer einfachen Textsuche durchsuchen. Eine weitere Aufgabe besteht also darin, die Daten wieder in eine durchsuchbare Erzählung zu de-normalisieren.

Forensic kann Lucene gut gebrauchen und hat sogar einen Beitrag dazu geleistet. Sie haben die Parameter phrase field (pf) und phrase slop (ps) im neuen Extended Dismax Parser intensiv genutzt, aber was sie wirklich brauchten, war die Möglichkeit, mehrere Sätze davon in einer einzigen Abfrage zu kombinieren. Daher schlägt SOLR-2058 eine neue Abfragesyntax vor (und implementiert sie auch), field~slop^boost, die unabhängige pf- und ps-Einstellungen zulässt, wie z.B.:

pf2=important_text^10~10&pf=important_text^100&pf=important_text^100~10

Mayer sagt, dass es zwar eine oder drei Sekunden dauern kann, bis eine Suche Daten liefert, dass aber die Relevanz in diesem Fall viel wichtiger ist.

Es gibt immer noch Probleme zu überwinden. Relative Steigerungen sind zum Beispiel knifflig. Wie weit muss ein Ereignis zurückliegen, damit es genauso irrelevant ist wie ein Ereignis, das vor zwei Jahren stattfand? Forensic arbeitet ständig an der Verfeinerung des Prozesses, der Tags, der Synonyme und anderer Parameter, so dass zu jedem Zeitpunkt immer die ältesten (nicht neu indizierten) Dokumente indiziert werden.

Denken Sie daran, wenn Sie das nächste Mal angehalten werden.

Cross-posted mit Lucene Revolution Blog. Nicholas Chase ist ein Gast-Blogger. Dies ist eine von mehreren Zusammenfassungen von Präsentationen auf der Konferenz.

You Might Also Like

KI-Agenten dominieren den Einkauf. Ist Ihre Website auf die KI-gestützte Suche vorbereitet?

Generative KI-Agenten wie ChatGPT definieren die Produktsuche neu. Erfahren Sie, wie Sie...

Read More

Vom Suchunternehmen zum praktischen KI-Pionier: Unsere Vision für 2025 und darüber hinaus

CEO Mike Sinoway gibt Einblicke in die Zukunft der KI und stellt...

Read More

Wenn KI schief geht: Fehlschläge in der realen Welt und wie man sie vermeidet

Lassen Sie nicht zu, dass Ihr KI-Chatbot einen 50.000 Dollar teuren Tahoe...

Read More

Quick Links