Willkommen Trey Grainger!

Wir freuen uns, einen weiteren Neuzugang im Lucidworks-Team bekannt geben zu können! Trey Grainger ist als Lucidworks SVP of Engineering zu uns gestoßen. Er wird unsere technischen Bemühungen sowohl für die Open-Source-Plattform Apache Lucene/Solr als auch für unsere Lucidworks Fusion-Plattform und unsere anderen Produktangebote leiten.

Trey war zuletzt als Director of Engineering im Search & Recommendations-Team bei CareerBuilder tätig, wo er ein Team von mehreren Dutzend Softwareingenieuren und Datenwissenschaftlern aufbaute, um eine robuste semantische Such-, Datenanalyse- und Empfehlungsplattform zu entwickeln. Diese Plattform umfasste weit über eine Milliarde Dokumente und ermöglichte über 100 Millionen Suchanfragen pro Tag auf einer großen Kombination von Verbraucher-Websites und B2B-Software-as-a-Service-Produkten.

Trey ist außerdem Co-Autor von Solr in Action, dem umfassenden, an Beispielen orientierten Leitfaden zu Apache Solr (sein Co-Autor war Tim Potter, ein weiterer Lucidworks-Ingenieur).

Trey erhielt seinen MBA in Management of Technology von der Georgia Tech, studierte Informatik, Wirtschaft und Philosophie an der Furman University und hat außerdem einen Master in Information Retrieval und Websuche von der Stanford University.

Wir haben uns mit Trey zusammengesetzt, um mehr über seine Leidenschaft für die Suche zu erfahren:

Wann haben Sie angefangen, mit Apache Lucene zu arbeiten?

Im Jahr 2008 war ich der leitende Ingenieur des neu gegründeten Suchteams von CareerBuilder und hatte die Aufgabe, nach potenziellen Optionen zu suchen, um die bestehende Nutzung der Suchmaschine FAST von Microsoft durch das Unternehmen zu ersetzen. Apache Lucene war zu diesem Zeitpunkt eine ausgereifte Option, und Apache Solr reifte schnell zu dem Punkt, an dem es fast alle von uns benötigten Funktionen unterstützen konnte. Nach einigen Proof-of-Concept-Arbeiten entschieden wir uns für die Migration zu Solr, das uns ermöglichte, das Beste, was Lucene zu bieten hatte, zu nutzen und zu erweitern und gleichzeitig einen äußerst zuverlässigen, sofort einsatzbereiten Suchserver bereitzustellen, der die verteilte Suche unterstützte (Skalierung mit Shards, Skalierung mit Replikaten) und über eine weitgehend steckbare Architektur und eine Reihe von Konfigurationsoptionen verfügte. Wir begannen 2009 mit der Migration zu Solr und schlossen sie 2010 ab. Zu diesem Zeitpunkt hatten die Projekte Lucene und Solr ihre Codebasen tatsächlich zu einem Projekt zusammengeführt. Seitdem hatte ich die großartige Gelegenheit, an der Entwicklung mitzuwirken, darüber zu sprechen, zu schreiben und Teams zu leiten, die die enormen Möglichkeiten des Lucene/Solr-Ökosystems vorantreiben.

Wie hat sich die Suche in den letzten paar Jahren entwickelt? Wo wird sie Ihrer Meinung nach in den nächsten 10 Jahren stehen?

Im Laufe des letzten Jahrzehnts hat sich das Suchfeld für Schlüsselwörter wirklich zur De-facto-Benutzerschnittstelle für die Erkundung von Daten und für die Navigation in den meisten Websites und Anwendungen entwickelt. Früher zahlten Unternehmen Millionen von Dollar für die Lizenzierung von Suchtechnologien, die kaum mehr als eine einfache Textsuche, Hervorhebung und Facettierung ermöglichten. Als Lucene/Solr auf den Plan traten und diese Funktionen zur Massenware machten, konnten sich die Suchingenieure voll und ganz auf die Big-Data-Ära einlassen und sich auf den Aufbau einer skalierbaren Infrastruktur konzentrieren, um ihre Open-Source-basierten Suchsysteme zu betreiben. Mit dem Aufkommen von Cloud Computing und virtuellen Maschinen wurde Solr ebenfalls so entwickelt, dass es mit automatischem Sharding, Replikation, Routing und Failover elastisch skalieren kann, so dass der Großteil der harten Infrastrukturarbeit nun ebenfalls zur Commodity geworden ist. Lucene/Solr sind außerdem zu Fast-Echtzeit-Systemen geworden, die eine beeindruckende Reihe von Echtzeit-Analysen und Abgleichsfunktionen ermöglichen.

Bei all diesen Veränderungen habe ich gesehen, wie sich das Wertversprechen für die Suche deutlich verschoben hat – von der „Bereitstellung eines Schlagwortfeldes“ hin zur „skalierbaren Navigation durch Big Data“ – und ein weiterer massiver Wandel ist nun im Gange. Heute betrachten mehr Unternehmen als je zuvor die Suche nicht mehr nur als Infrastruktur, die den Zugriff auf Daten ermöglicht, sondern als die Killeranwendung, die benötigt wird, um Erkenntnisse und hochrelevante Antworten zu liefern, die ihren Kunden helfen und ihr Unternehmen voranbringen.

Ich rechne daher damit, dass in den kommenden Jahren der Schwerpunkt immer mehr auf der bereichsbezogenen Relevanz liegen wird. Wir sehen bereits jetzt, dass branchenführende Unternehmen ausgefeilte semantische Suchfunktionen entwickeln, die einen enormen Kundennutzen schaffen, und ich sehe das nächste Jahrzehnt als eines, in dem solche intelligenten Funktionen der breiten Masse zugänglich gemacht werden.

Was finden Sie an der aktuellen Landschaft der Suchtechnologie am spannendsten?

Die aktuelle Grenze der Suchrelevanz (siehe meine Antwort auf die letzte Frage) ist das, was mich in der Landschaft der Suchtechnologien derzeit am meisten begeistert. Jetzt, da die Kernbereiche Textsuche, Skalierung und Cluster-Verwaltung immer mehr zur Massenware geworden sind, wird die Relevanz als wichtiges Unterscheidungsmerkmal für viele Suchanwendungen immer wichtiger. Zu einer guten Relevanz gehören Funktionen wie die Abfrageabsicht, die Extraktion von Entitäten, die Disambiguierung, die semantische und konzeptionelle Suche, die automatische Klassifizierung und die Extraktion von Wissen aus Dokumenten, maschinelles Ranking, die Verwendung von Clickstream-Feedback für Boosting und kollaboratives Filtern, die Personalisierung und Empfehlungen für einzelne Benutzer und die Weiterentwicklung der Suche, um Antworten auf natürlichsprachliche Fragen geben zu können und nicht nur Listen von Dokumenten. Viele dieser Funktionen erfordern externe Systeme zur Unterstützung anspruchsvoller Workflows und Feedback-Schleifen (wie sie in Lucidworks Fusion durch die Kombinationspipelines mit Solr + Spark bereits integriert sind), und Lucidworks steht an vorderster Front, wenn es darum geht, diese nächste Generation intelligenter Suchanwendungen voranzutreiben.

Wo liegen die größten Herausforderungen im Bereich der Suche?

Einige der unterhaltsamsten Herausforderungen, die ich in meiner Karriere angegangen bin, waren die Entwicklung von Systemen zur Ableitung von Suchintentionen, Empfehlungssystemen, personalisierter Suche und maschinell erlernten Relevanzmodellen. Eines habe ich dabei über die Suche gelernt: Nichts ist einfach, weder in großem Maßstab noch im Nachhinein. Es hat Jahre gedauert, bis ich eine skalierbare Suchinfrastruktur aufgebaut hatte (mit größtenteils manuellem Relevanz-Tuning), bevor ich genügend Zeit hatte, um den langen Schwanz der Relevanzprobleme mit Hilfe von maschinellem Lernen wirklich optimal zu lösen.

Das Besondere am Suchbereich ist, dass er tiefgreifende Fachkenntnisse in zahlreichen Bereichen erfordert, um wirklich gut zu sein. Die Fähigkeiten, die für den Aufbau und die Pflege einer skalierbaren Infrastruktur erforderlich sind, umfassen beispielsweise Themen wie verteilte Systeme, Datenstrukturen, Leistungs- und Gleichzeitigkeitsoptimierung, Hardwareauslastung und Netzwerkkommunikation. Zu den Fähigkeiten, die Sie benötigen, um Relevanz zu erreichen, gehören Themen wie Fachwissen, Feature Engineering, maschinelles Lernen, Ontologien, Benutzertests und Verarbeitung natürlicher Sprache. Es ist selten, dass man Menschen mit all diesen Fähigkeiten findet, aber um wirklich schwierige Suchprobleme in großem Umfang und im Nachhinein gut zu lösen, sind alle diese Themen wichtig zu berücksichtigen.

Was hat Sie zu Lucidworks geführt?

Interessante Probleme und eine gemeinsame Vision für das, was möglich ist. Was mich an Lucidworks reizt, ist die Möglichkeit, mit Visionären im Bereich der Suche zusammenzuarbeiten und eine Suchtechnologie zu entwickeln, die der breiten Masse hilft, aus ihren Daten Intelligenz zu schöpfen, sowohl im großen Maßstab als auch im Nachhinein. Die Suche ist ein wirklich schwieriges Problem, und ich freue mich darauf, in einem großartigen Unternehmen zu arbeiten, das versucht, dieses Problem gut zu lösen.

Woran werden Sie bei Lucidworks arbeiten?

Als SVP of Engineering werde ich unsere technischen Bemühungen rund um Open Source Lucene/Solr sowie Lucidworks Fusion und unsere anderen spannenden Produktangebote leiten. Da Lucidworks einen großen Teil der Lucene/Solr-Committer beschäftigt, nehmen wir die Betreuung des Open-Source-Projekts sehr ernst, und ich freue mich darauf, mehr an der strategischen Ausrichtung unserer Open-Source-Beiträge arbeiten zu können. Außerdem werde ich daran arbeiten, Fusion als Plattform der nächsten Generation für die Entwicklung von suchbasierten, intelligenten Anwendungen voranzutreiben. Ich bin begeistert, mit einem so erstklassigen Team bei Lucidworks zusammenzuarbeiten, und freue mich darauf, das skalierbarste, zuverlässigste, benutzerfreundlichste und relevanteste Suchprodukt auf dem Markt zu entwickeln.

Willkommen, Trey!