Implementierung einer benutzerdefinierten Such-Syntax mit Solr, Lucene und Parboiled
Präsentiert von John Berryman, Search Architect, Opensource Connections
In einem kürzlich durchgeführten Projekt mit dem US Patent- und Markenamt wurde Opensource Connections gebeten, einen Prototyp für die nächste Generation der Patentsuche zu entwickeln – unter Verwendung von Solr und Lucene. Ein wichtiger Aspekt dieses Projekts war die Implementierung von BRS, einer speziellen Suchsyntax, die von Patentprüfern während des Prüfungsverfahrens verwendet wird.
In dieser temporeichen Sitzung werden wir von unseren Erfahrungen berichten und beschreiben, wie wir eine Kombination aus Parboiled (einem Parser Expression Grammar [PEG] Parser), Lucene Queries und SpanQueries sowie eine Erweiterung des QParserPlugin von Solr verwendet haben, um BRS-Suchfunktionen in Solr zu erstellen.
Zunächst werden wir das Problem der Patentsuche charakterisieren und dann die BRS-Syntax selbst definieren. Anschließend stellen wir den Parboiled-Parser vor und erörtern verschiedene Überlegungen, die man bei der Entwicklung eines Syntaxparsers anstellen muss. Anschließend beschreiben wir die Methodik zur Implementierung der Suchfunktionalität in Lucene/Solr. Schließlich geben wir einen Überblick über unsere syntaktischen und semantischen Teststrategien. Die Zuhörer werden diese Sitzung mit einem Verständnis dafür verlassen, wie Solr, Lucene und Parboiled verwendet werden können, um ihren eigenen benutzerdefinierten Suchparser zu implementieren.