Apache Lucene EuroCon im Rückblick
Letzte Woche hatte ich das Privileg und Vergnügen, nach Prag zu unserer Apache Lucene EuroCon-Veranstaltung zu reisen. Ich möchte meine…
Letzte Woche hatte ich das Privileg und Vergnügen, nach Prag zu unserer Apache Lucene EuroCon-Veranstaltung zu reisen.
Ich möchte meine Notizen zu den Sitzungen teilen, an denen ich teilgenommen habe…
Die Woche begann damit, dass ich den „Solr Application Development Workshop“ hielt, einen zweitägigen intensive eine zweitägige intensive Einführung in so ziemlich alles, was mit Solr zu tun hat, und auch ein wenig über die Interna von Lucene. Ich habe den Workshop mit unseren 3-tägigen Solr-Schulungsunterlagen durchgeführt, die eine enorme Menge an Material und auch eine Reihe von Übungen enthalten. Ich habe einen Teil des Materials schnell durchgearbeitet und weniger Zeit für die Übungen eingeplant als bei unserem 3-tägigen Kurs, aber wir konnten trotzdem alles unterbringen. Die Rückmeldungen der Teilnehmer zeigten, dass der Kurs sehr schnell und dennoch sehr informativ war – genau wie geplant. Der Workshop war mit über 30 Teilnehmern bis auf den letzten Platz gefüllt! Parallel zur Solr-Schulung hielt Grant seine berüchtigte „Lucene Bootcamp“-Schulung ab.
Nun zu den Konferenzsitzungen; es waren etwa 160 Personen anwesend. Die Konferenz wurde von unserem sympathischen und lächelnden CEO, Herrn Eric Gries, eröffnet, der uns mit der „Such-Revolution“ Keynote über die Entwicklung von Open Source und Enterprise Search. Mein Favorit war Eric, der die „Neue Benutzeroberfläche“ vorstellte: ein einfaches Suchfeld mit einer Schaltfläche „Finden“ anstelle von „Suchen“ (intern nennen wir unser http://search.lucidimagination.com System LucidFind). Stephen Dunn von der britischen Tageszeitung The Guardian folgte mit seinem Epos „Vom Verlag zur Plattform: Wie The Guardian Inhalte, Suche und Open Source nutzte, um ein leistungsfähiges neues Geschäftsmodell aufzubauen“. Vortrag. Einige Punkte aus seinem Vortrag sind es wert, wiederholt zu werden: Um Teil des Webs zu sein, müssen Sie dauerhaft sein(coole URLs ändern sich nicht), im Web geht es um adressierbare Ressourcen, und diese Ressourcen sind auffindbar. Die offene Strategie des Guardian erlaubt es jedem, auf seinen Diensten aufzubauen und so ein integraler Bestandteil des Webs zu werden, nicht nur ein Endpunkt von Nachrichtengeschichten. Ich habe am Vorabend kurz mit Graham Tackley, dem Leiter des Web-Plattform-Teams des Guardian, gesprochen. Er war begeistert von der Benutzerfreundlichkeit von Solr und der Geschwindigkeit, mit der sie Prototypen entwickeln konnten, lange bevor kommerzielle Anbieter überhaupt in der Lage waren, Angebote zu unterbreiten, und wie schnell neue Entwickler Solr erlernen und damit produktiv arbeiten konnten.
Jetzt kam der schwierige Teil: die Entscheidung, welche der Veranstaltungen ich besuchen wollte. Ich werde nur über die Sitzungen berichten, die ich besucht habe:
Marc Sturlese’s „Use of Solr at Trovit, A Leading Search Engine For Classified Ads“ (Einsatz von Solr bei Trovit, einer führenden Suchmaschine für Kleinanzeigen ) – die wichtigsten Punkte sind: die Verwendung mehrerer Indizes für verschiedene Datentypen, einschließlich der Indizierung von Suchanfragen früherer Benutzer, um ähnliche Suchanfragen zu präsentieren; gute Details zur Skalierung mit Replikation und verteilter Suche; wie die Erweiterbarkeit von Solr es Marc ermöglicht hat, seine eigenen Anpassungen und Verbesserungen einzubauen.
Bo Raun’s „Implementing Solr in Online Media As An Alternative to Commercial Search Products“ – Ich war beeindruckt von Bo’s Vortrag. Exzellenter Humor, mit einem geraden Gesicht. Und die grundlegende Botschaft war, dass die Implementierung von Solr in einer Nicht-Java-Umgebung gar nicht so schlecht ist. Er erwähnte sogar, dass er eines Abends einen Prototyp herausholte, während sein Sohn Jujitsu trainierte. Ich habe seine Botschaft für meinen Vortrag am nächsten Tag aufgegriffen. Er wies auch darauf hin, dass die Technologie zwar kostenlos und einfach zu implementieren ist, dass aber kommerzielle Unterstützung für die Akzeptanz des Einsatzes dennoch notwendig ist. Sie können seinen Vortrag, den er seit der Konferenz als Webcast über theserverside.com gehalten hat, hier anhören.
Andrzej Bialeckis „Munching and Crunching: Lucene Index Post-processing“ – wow. Ich bin gerne mit Andrzej zusammen. Er ist einer der klügsten Menschen, die ich je getroffen habe. Er erklärt hochkomplexe Themen auf verständliche Weise. Er präsentierte mehrere interessante Low-Level-Techniken in Bezug auf Leistung und Relevanz, die uns dazu brachten, über den Tellerrand zu schauen und unsere (luzide) Vorstellungskraft einzusetzen.
Joan Codina-Filbàs „Integration von Werkzeugen zur Verarbeitung natürlicher Sprache mit Solr“ – Stemming, Lemmatisierung, Entity-Extraktion, oh je. Joan ist ein hervorragender Redner, mit viel Leidenschaft. UIMA und Payloads, eine reiche Kombination. Solr + SolrJS (jetzt ajax-solr) bedeutet „keine Notwendigkeit zu programmieren“ und „schnelles Prototyping“, hmm, ein wiederkehrendes Thema!
Max und Karl’s „Modular Document Processing for Solr/Lucene“ – das sind großartige Leute, die sich sehr gut mit der Unternehmenssuche auskennen. Sie schlugen eine Architektur für eine Dokumentenverarbeitungspipeline für Solr vor, etwas, das dringend benötigt wurde. Leider gibt es so viele Möglichkeiten, so etwas zu machen, dass es keinen allgemeinen Konsens über die technischen Details gab. Sie schlugen vor, die Apache Commons Pipeline zu verwenden.
Shai Ereras „Social and Network Discovery (SaND) over Lucene“ – Shai ist einer der jüngsten Lucene-Committer (aber ein erfahrener Lucene-Veteran). Es ist schwierig, in einer großen Organisation vernetzt und auffindbar zu sein. Tools wie SaND verbessern die Produktivität drastisch und sorgen dafür, dass man in diesen großen, verteilten Unternehmen das Rad nicht neu erfinden muss.
Dusan Omercevic’s „Abfrage nach Dokument: When „More Like This“ Is Insufficient“ – Dusan spricht klar und effektiv über intelligentere Begriffe, Disambiguierung und Entity-Extraktion. Das wichtigste Zitat für mich war: „Die Zeit ist besser damit verbracht, den Index zu kuratieren, als intelligente Algorithmen zu entwickeln“. Ich interpretiere das so, dass wir uns auf die Qualität und Struktur dessen, was wir indizieren, konzentrieren sollten, damit die Leistungsfähigkeit von Lucene und Solr richtig zur Geltung kommt.
Zack Urlocker hielt am zweiten Tag eine enthusiastische Keynote mit dem Titel „Software Disruption: Wie Open Source, Suche, Big Data und Cloud-Technologie die IT auf den Kopf stellen“. Er machte deutlich, warum wir hier im Geschäft sind: um den unterversorgtenMarkt zu bedienen . Disruptiv – Lucene/Solr – eine dramatisch niedrigere TCO und weitaus anpassungsfähiger als die anderen Anbieter von Enterprise Search. Ich musste schmunzeln, als Zack The Motley Fool als Beispiel anführte, denn ich war einer der ersten Technologen vor Ort und nutzte die „Rapid Prototyping“-Techniken, um sie so schnell wie möglich zum Laufen zu bringen. Lucene’s disruptive Bewertung: B+. „Einige Bereiche müssen verbessert werden, um den Markt zu stören.“ Wir arbeiten daran!
Als nächstes war Yoniks konferenzübergreifende Sitzung „Solr 1.5 and Beyond“ an der Reihe. Ziemlich technisches Zeug, das die großen Funktionen umreißt, die wir erwarten können, einschließlich verbesserter Relevanztechniken (erweiterte Dismax), Skalierbarkeit mit Solr Cloud (verteilte Verwaltung), geo-spatiale Integration, Indizierung „fast“ in Echtzeit und Feldzusammenlegung. Es ist gut, diese Dinge direkt vom Schöpfer von Solr zu erfahren.
Steve Kearns von Basis Technology sprach über „Aufbau mehrsprachiger suchbasierter Anwendungen“. Steve demonstrierte fachkundig eine Reihe von Problemen, die beim Umgang mit mehrsprachigen Inhalten auftreten, und wie diese Probleme mit ihrer Rosette Linguistics Platform gelöst werden, einschließlich Entity-Extraktion, Sprachidentifizierung, Stemming vs. Lemmatisierung, Übersetzung, Fuzzy-Suche, n-Gramm-Tokenisierung vs. morphologische Analyse, Decompounding und Sentiment-Analyse. Schließlich demonstrierte Steve den Odyssey Information Navigator, der in etwa 1 Monat auf Solr aufgebaut wurde! Das zeigt, wie leistungsfähig die Solr-Plattform ist.
Karl Wright präsentierte als nächstes „Lucene Connectors Framework: Eine Einführung“. Lucene Connectors Framework (LCF) ist ein ausgeklügeltes, steckbares System zur Extraktion von Inhalten aus anspruchsvollen Unternehmens-Content-Repositories wie SharePoint, Documentum, LiveLink und anderen. LCF bietet Sicherheit, inkrementelles Crawling, Überwachung und Ausfallsicherheit. Ein LCF-Output-Connector indiziert Inhalte reibungslos in Solr. Erwarten Sie Großes von LCF, dem jetzt viel Aufmerksamkeit gewidmet wird. Der Großteil dieser Codebasis (vor der Open-Source-Spende von MetaCarta an Apache) wurde bereits erfolgreich und sicher in einer Reihe von großen Unternehmen und Behörden eingesetzt.
*schnüffel schnüffel*, was rieche ich denn da? Ahh, der Duft von Informationen! Tyler Tate und H. Stefan Olafsson haben mit „The Path to Discovery“ genau mein UI-Gefühl angesprochen : Facetten und der Geruch von Informationen“. Sie verwendeten einige meiner Lieblingsbegriffe: Informationssuche und Serendipität. „Suche ist ein evolutionärer Prozess.“ Wir suchen, sehen die Ergebnisse, bekommen eine bessere Vorstellung davon, was verfügbar ist, probieren neue Suchen aus, entdecken tangential interessante Dinge und folgen dem „Duft“ zu den Informationen, die wir ursprünglich gesucht haben, oder zu fruchtbaren Wegen, die wir nicht vorhergesehen haben. In dieser Präsentation ging es um die Notwendigkeit einer guten Autosuggest-Funktion, um bewährte Verfahren für die Anzeige von Suchergebnissen und natürlich um die vielen Möglichkeiten, die Facetten effektiv zu nutzen. Wirklich elegantes Zeug. Auf den Folien finden Sie viele Beispiele für diese Themen.
Und passend zum Zeitplan folgte mein „Rapid Prototyping mit Solr“. Ganz im Sinne des Rapid Prototyping habe ich die Daten der Konferenzteilnehmer (eine CSV-Datei mit Vorname, Nachname, Land, Titel und Unternehmen) genommen und iterativ eine attraktive Suchmaschine mit Facettierung (nach Land), Hervorhebung, Rechtschreibprüfung und Debugging von Abfragen und Ergebnissen erstellt. Ich habe sogar eine coole Baumdiagramm-Visualisierung der Länderfacetten eingefügt. Darüber hinaus habe ich eine einfache Solr-basierte Anwendung für die Preisverlosungen der Konferenz entwickelt. Und der Gewinner ist… klicken Sie auf eine Schaltfläche und über einen Ajax-Aufruf an Solr und den wunderbaren VelocityResponseWriter wird ein zufälliger Teilnehmer ausgewählt und präsentiert. All das wurde zwischen den Sitzungen gebastelt.
Und schließlich präsentierte Chris Male „Europäische Sprachanalyse mit Hunspell“. Hunspell ist eine Rechtschreibprüfung für OpenOffice, aber noch interessanter ist, dass die zentralen Sprachregeln in Lucene-Token-Filter destilliert wurden, um umfassendere Stemming-Funktionen als der traditionelle Snowball-Algorithmus zu ermöglichen, und zwar auch für eine größere Anzahl von Sprachen. In der Projektbeschreibung von hunspell-lucene heißt es, dass es „Funktionen wie Stemming, Decompounding, Rechtschreibprüfung, Normalisierung, Termexpansion usw. bereitstellen soll, die die bestehenden lexikalischen Ressourcen nutzen, die in Projekten wie OpenOffice bereits erstellt und weithin verwendet werden“. Klasse! Die Sprachverarbeitung von Lucene hat sich im letzten Jahr dramatisch verbessert und entwickelt sich weiterhin in rasantem Tempo.
Ein großes Lob an das Marketingteam von Lucid und Stone Circle Production für eine erstklassige, gut organisierte Veranstaltung.