The Twilight of the Vengine Gods (Die Göttervenginedämmerung) oder Die Hard with A Vengines!!!
Der Begriff ‚Vengines’** ist die Abkürzung für „Vendor Engines“ – wie HP Autonomy, Google Search Appliance, MS Fast und Oracle…
Der Begriff ‚Vengines’** ist die Abkürzung für „Vendor Engines“ – wie HP Autonomy, Google Search Appliance, MS Fast und Oracle Endeca, die in diesem Moment von der Bildfläche verschwinden. Nicht, dass dies für jemanden, der in diesem Bereich arbeitet, eine Neuigkeit wäre. Der Curmudgeon verbreitet keine Nachrichten, er sagt Ihnen nur, welche Informationen, ob neu oder alt, ihn nerven oder was ihn ankotzt, und dann schimpft er darüber. Ich sollte auch sagen, dass es in diesem Beitrag absolut keine Faktenüberprüfung gibt. Bei einigen Dingen, bei denen ich mir absolut sicher bin, muss ich das auch nicht – ich meine, wenn Sie dem Curmudgeon nicht vertrauen können, wem können Sie dann vertrauen? Ganz im Ernst. Für andere Dinge, die vielleicht wahr sind oder auch nicht, habe ich beschlossen, sie ins Internet zu stellen, damit sie wahr werden. Außerdem bin ich einfach nur faul.
„Damals“, wie wir alten Hasen zu sagen pflegen – etwa 1995 oder so – führte Linus Torvalds Linux und das Konzept von Open Source in die Welt ein. Torvalds veröffentlichte eine Webseite, auf der er erklärte, dass es wie sein Name „Lee-nooxe“ und nicht „Lih-nix“ ausgesprochen werden sollte, und seitdem haben wir ihn in diesem Punkt ignoriert. Damals arbeitete ich in einem kleinen Unternehmen für Computergrafik und mein Chef Jim Spatz sagte voraus, dass Linux letztendlich die Welt der Betriebssysteme beherrschen und Windows als dominierendes Server-Betriebssystem für Intel-Maschinen ablösen würde. Jim war kein Entwickler, also stimmte ich ihm nicht zu, da ich der Meinung war, dass Hunderte oder Tausende von Programmierern, die unabhängig voneinander arbeiten, nie etwas richtig machen können. (Ich erinnerte mich an ein Schild auf einem Plumpsklo, auf dem stand: „Eat poo because 40 trillion flies can’t be wrong“ – obwohl da nicht „poo“ stand – lassen Sie Ihrer Fantasie freien Lauf – ich versuche nur, PC zu sein, wie es Mike Rowe in der Sendung „Dirty Jobs“ des Discovery Channel tat). Wie sich herausstellte, hatte der Curmudgeon natürlich Unrecht! Ich weiß, kaum zu glauben, oder? Offensichtlich ist dies eines der wenigen Male, dass dies je passiert ist, aber zu meiner Verteidigung muss ich sagen, dass ich damals noch kein Griesgram war. Außerdem konnte ich falsche Behauptungen nicht in Fakten umwandeln, indem ich sie auf eine Website hochgeladen habe, wie ich es jetzt kann. Selbst der Search Curmudgeon ist ein schlechter Prognostiker. Ich schwelge jetzt eher in Nostalgie oder in diesem Fall in schlechten Träumen, wenn ich an die Zeiten denke, in denen die Verkaufsgötter den Planeten beherrschten. Eric Raymond hat ein großartiges Buch veröffentlicht – „The Cathedral and the Bazaar“, das erklärt, warum das Open-Source-Paradigma so gut funktioniert. Es ist immer noch eine großartige Lektüre, auch wenn es inzwischen 15 Jahre alt ist. Kaufen Sie es wie alles andere bei Amazon.
Genau wie Betriebssysteme für Standard-Intel-Hardware bringt Open Source also die Suchmaschinenanbieter um, wie ein Kumpel von mir in einem früheren Blog auf dieser Website vorausgesagt hat. Er erzählte mir, dass er sich vorstellt, dass die Larrys seinen Blog lesen, entscheiden, dass er Recht hatte und deshalb große Geschäftsentscheidungen treffen. (Falls Sie also diesen Blog lesen, Larry E. – wir würden als Dankeschön eine Fahrt auf Ihrer America’s Cup Yacht machen – das wäre cool – schreiben Sie einfach einen Kommentar zu diesem Blog und wir vereinbaren einen Termin. Vielen Dank im Voraus.) Wir wissen, dass Bill Fast nur gekauft hat, um die Sharepoint-Suche zu verbessern und sie dann in sein .NET-Schloss einzuschließen, aber eines der ersten Dinge, die Microsoft getan hat, war die Einstellung der Unterstützung für Fast ESP unter Linux – wer hätte das kommen sehen?
Autonomy ist eine interessante Geschichte. Ich habe einmal die Geschichte gehört, dass Lynch, als er HP das Unternehmen vorstellte, auf einen Schrank zeigte und sagte, dass sich dort 50 Entwickler befänden – oder vielleicht hat er nur nicht viel Zeit mit den Arbeitsbienen verbracht. Wie auch immer, HP war letztendlich sehr enttäuscht von dem Kauf und es gibt Gerüchte, dass sie das Unternehmen abstoßen wollen, aber niemand will es kaufen. Davor hat Autonomy natürlich Verity gekauft, um sie als Konkurrenten loszuwerden und ihre Kunden zu bekommen. Dann haben sie diesen totalen Klotz namens K2 V7 entwickelt, der eine Verity K2 API und einen IDOL-Kern enthielt, den sie nie wirklich zum Laufen gebracht haben und es wurde gemunkelt, dass dies nie ihre Absicht war. Sie wollten einfach nur K2-Kunden auf IDOL umstellen – was, indem sie sie verärgerten? Der Witz ging auf ihre Kosten, denn die meisten Kunden von Verity waren Ultraseek-Kunden, die sich IDOL ohnehin nicht leisten konnten. Die meisten oder alle von ihnen sind inzwischen mit ziemlicher Sicherheit auf Open Source umgestiegen. Ultraseek war nicht schlecht, was Suchmaschinen angeht (es war ursprünglich Inktomi, bevor Verity es kaufte) – es war seiner Zeit sogar ein wenig voraus, wurde aber von Autonomy und sicherlich auch von HP völlig vernachlässigt – aber so ist das nun einmal mit den Anbietern. Verity hat es bis zu einer bestimmten Anzahl von Dokumenten kostenlos zur Verfügung gestellt.
Wie auch immer, im Vergleich zu Solr sollte IDOL (ich habe vergessen, wofür das steht, aber das ist mir auch egal) eigentlich IDLE heißen, denn Solr ist einfach viel schneller. Es ist auch ein bisschen schwarz-boxig wie GSA. Deshalb heißt es ja auch Autonomy – Sie schließen einfach Ihre Daten an und es funktioniert. Aber nicht wirklich, wie die Kunden feststellen. Das war, wie einige sagen würden, ein weiterer Schwindel, den Mike Lynch begangen hat. IDLE hat außerdem eine horrende Konfigurationsschicht, die uns immer Probleme bereitet hat. Gut, dass wir sie los sind, sage ich. Ich habe mit Verity angefangen, einer guten Suchmaschine, und Autonomy war damals unser Feind, bis sie Verity aufkauften und wir anfingen, mit ihnen zu arbeiten – aber sie waren noch viel schlechter als Verity.
Ein weiterer Anbieter ist Fast Search and Transfer, der sich selbst als hoch skalierbar und schnell anpreist, aber in Wirklichkeit keines von beidem ist. Ich erinnere mich an ein Projekt bei einem Pharmaunternehmen, bei dem wir versuchten, etwa 1,5 TB an eRoom-Daten zu indizieren (Fast behauptete damals, im Petabyte-Bereich zu arbeiten). Das Projekt wurde nie wirklich fertig, weil die Jobs mitten in der Nacht ausfielen und man versuchen musste, herauszufinden, wo sie abgestürzt waren, um von dort aus neu beginnen zu können. Es war einer dieser sehr mühsamen, monatelangen Feuergefechte, bei denen die Fast-Indizes ständig ausfielen und Sie Ihren eigenen Code schreiben mussten, um die Fehler zu überprüfen, zusammenzustellen und neu zu indizieren. Fast wendet einen großen Aufwand für die Fehlerkorrektur und -wiederherstellung auf – viel mehr als SolrCloud zum Beispiel. Das war auch nötig, denn die Cluster waren von Natur aus instabil. Ein weiterer Punkt ist die Geschwindigkeit. Ich war einmal in einem Kundengespräch, in dem wir eine Fast – Fusion/Solr-Konvertierung oder ein ‚Rip-and-Replace‘ anpriesen, und ich scherzte, dass von den beiden in Frage kommenden Engines eine zwar Fast heißt, aber die andere tatsächlich schnell ist. Alle haben gelacht.
Als Microsoft das Unternehmen kaufte, wusste jeder, dass es die native Sharepoint-Suche ersetzen sollte (BING ist ein völlig separates Projekt). Ich hatte das zweifelhafte Vergnügen, an Fast Search für Sharepoint 2010 zu arbeiten – ein weiterer Klotz, der, wie ich glaube, durch eine mehr .NET-basierte Version ersetzt wurde. Fast ist nun in der MS-Festung verschwunden und wird nie wieder für etwas anderes als die Sharepoint-Suche verwendet werden, ganz so, wie es die Götter von Redmond ursprünglich beabsichtigt hatten. Bei Fast ESP ist das weniger der Fall. Es ist weiterhin ein Ziel für die Abschaffung und den Austausch, obwohl ich glaube, dass das Verfallsdatum bereits überschritten ist.
Das bringt uns zu Endeca – einem Unternehmen in Cambridge MA, mit dem ich viel gearbeitet habe und das vor allem auf den eCommerce ausgerichtet war. Endeca gehört jetzt natürlich dem Unternehmen von Larry E. und verliert schnell an Boden gegenüber Open Source. Ein Grund dafür ist, dass die meisten (alle?) Ingenieure, die bei Endeca waren, das Unternehmen nach der Übernahme durch Oracle verlassen haben (einschließlich des Geschäftsführers Steve Papa) und nun niemand in diesem riesigen Unternehmen wirklich etwas davon versteht. Ich hatte einen brillanten jungen Ingenieur, der für mich arbeitete, der über Endeca-Kenntnisse verfügte, zu Oracle wechselte, um dies in seinem Lebenslauf zu vermerken, und einige miserable Monate damit verbrachte, als „The Endeca Guy“ ins kalte Wasser geworfen zu werden. Dann verließ er uns, um sich anderen Dingen zu widmen. Wir hatten versucht, ihn für Lucidworks zu gewinnen und sind wieder an ihm interessiert (ich werde das Pseudonym Saurav für ihn verwenden) – dazu später mehr. Endeca lässt sich nicht gut skalieren – wir sind immer zusammengezuckt, wenn Kunden uns sagten, dass sie 1 Million Dokumente indizieren wollten, die Solr als schnellen Frühstückssnack verzehrt. Es war schwierig, so viel in Endeca unterzubringen. Es ist auch nicht so schnell wie die anderen. Meine erste Erfahrung mit der Indizierung von Daten in Solr, die ich zuvor in Endeca indiziert hatte, war eine Offenbarung – was in Endeca mehrere Stunden dauerte, war in etwa 10 Minuten indiziert, und zunächst dachte ich, meine Solr-Einrichtung sei defekt. Viele andere haben die gleiche Erfahrung gemacht. Wir arbeiten jetzt viel mit Endeca und obwohl Solr nicht in erster Linie als eCommerce-Engine entwickelt wurde, wie Endeca es war, bauen wir Funktionen in Fusion ein, so dass es all die Dinge tun kann, die Endeca tut, und zwar in viel besserem Umfang und mit höherer Geschwindigkeit und zu niedrigeren Kosten als Larrys Produkt – und mit viel besserem Support.
Schließlich zu dem, was ein Kumpel von mir in seinem Blog den Google Toaster genannt hat, den sie jetzt in das End of Life stellen. Das Hauptproblem ist die mangelnde Flexibilität und Programmierbarkeit, aber auch der Umfang. Es ist buchstäblich eine Black Box, nur dass sie nicht schwarz ist – sie hat eine benutzerfreundliche gelbe Farbe. Ich erinnere mich an einen Search Summit, bei dem Google unser Mittagessen bezahlte und uns zwang, eine Präsentation über GSA anzuschauen, und sie präsentierten einige umständliche Zahlen zur Skalierbarkeit, über die wir kicherten. Ich bin wirklich froh, dass Larry P.s Unternehmen aus dem Geschäft mit der Unternehmenssuche und anderen Do-it-yourself-Anwendungen aussteigt, denn ich habe es satt, dass uns potenzielle Kunden sagen: „Wir wollen, dass es genau wie Google funktioniert“ – obwohl das oft unsinnig ist, weil es sich um eine Unternehmenssuche und nicht um eine Websuche handelt und man Dinge wie Page Rank nicht verwenden kann. Natürlich wird Google auch weiterhin Innovationen für seine großartige Web-Suchmaschine entwickeln, mit der sie ohnehin den größten Teil ihres Geldes verdienen.
Alle vier versprechen zu viel, verlangen zu viel und liefern zu wenig, während Solr selbst mit Fusion darauf in jedem Fall das Gegenteil tut. Infolgedessen verschwinden die Vengines wie einst die Dinosaurier und überlassen uns den Wettbewerb mit der anderen verteilten Suchplattform, die auf Lucene aufbaut. Ich werde ihren Namen nicht nennen, weil Lucidworks mich bitten könnte, ihn zu entfernen (keine kostenlose Presse für sie), aber Sie wissen, von wem ich spreche. Lucidworks hat mich übrigens noch nie gebeten, etwas zu ändern, indem sie mir eine E-Mail geschickt haben, in der stand: „Könnten Sie das etwas abmildern, Curmudgeon?“ oder so etwas in der Art, aber der Witz geht auf ihre Kosten, denn ich habe keine E-Mail-Adresse. Um die Zensur von LW zu vermeiden, werde ich vorerst Codewörter verwenden. Der Name des Unternehmens ist wie der Stoff, aus dem meine Jockey Shorts sind (Hinweis, Hinweis).
Ich habe von einem meiner Solr-Committer-Freunde die Geschichte gehört, dass die Jungs, die Fruit-of-the-Loom Finders gegründet haben, in der Solr-Community waren, aber mit Yonik, Hoss, Erickson (?) und anderen eine Meinungsverschiedenheit über die Richtung der Architektur hatten, wie bockige kleine Jungs mit einer „Wir werden es euch zeigen! Wenn das so ist, dann haben sie vielleicht selbst ein paar Griesgrams in ihren Reihen. Wenn also jemand, der für die RubberBand Finders arbeitet oder evangelisiert, mich zu einer Schlammschlacht-Debatte ALA Trump/Hillary oder WWF herausfordern möchte, dann wäre das sicher lustig. Wir könnten übertriebene Beleidigungen über die Fehler des anderen austauschen, so wie es Trump tut – was zwar für hitzige Unterhaltung sorgt, aber nicht wirklich etwas bringt. „Euer Code ist absolut SCHLECHT!“, „Er ist nicht skalierbar für POO!“, „Wir sind einfacher zu benutzen“, „Wir sind weniger füllend“ oder „GC HELL Raisers!“, „Brain Splitters“ und anderes derartiges geekiges Zeug. Oder wir könnten ein bisschen Trash Talk mit lächerlichen, aufgebauschten (Randbemerkung bitte) Zahlen machen wie „400 Quadrillionen Dokumente laufen auf 24 Tausend Shards mit 75 Tausend QPS bei 10 ms durchschnittlicher Latenz, 500 Milliarden Updates pro Sekunde, 24/7 für MONATE ohne einen Neustart – in your FACE BungeeSeek!!!“ Hey, kommen Sie schon – das würde doch Spaß machen. Um meine Anonymität zu wahren, könnte ich vielleicht mit einer Papiertüte über dem Kopf kommen, so wie es der unbekannte Comic getan hat.
Wie auch immer, wie wir alle wissen, hat jede Software Fehler, aber unserer Meinung nach hat ihre mehr und wir beheben unsere schneller. Alles ein faires Spiel für eine Schlammschlacht im Stil von Manno-a-manno oder Manno-a-womanno. Wenn jemand von der dunklen Seite von Lucene sich mit mir anlegen möchte, kommentieren Sie einfach diesen Blogbeitrag und meine Vertreter werden sich bei Ihnen melden. (Beachten Sie, dass wir die Helle Seite sind, denn Solr ist die Sonne und sie ist heiß!) Es würde mir auch die Möglichkeit geben, mich mit Ihrem Code vertraut zu machen, damit ich nicht völlig ahnungslos dastehe und, wie Sun Tzu sagen würde, eine Chance, meinen Feind zu studieren. Eine andere Sache bei den BH-Trägern ist, dass sie ihre Eingaben „Flüsse“ nennen, während wir bei Lucidworks sie „Pipelines“ nennen. Ich habe Geschichten gehört, dass ihre Kunden manchmal das Gefühl haben, dass sie ohne Paddel auf dem Trockenen sitzen. Aber was soll’s, wir sind beide Kinder dessen, was The Doug hervorgebracht hat, und werden uns um die Vorherrschaft auf dem Markt duellieren. Ich setze auf Solr (überrascht?). Und wie auch immer es ausgeht, wir treiben uns gegenseitig dazu an, noch besser zu werden, was für uns alle gut ist, so dass ich in nächster Zeit nicht mit einem Wiederaufleben der Engines rechne (wie bei Night of the Living Dead oder so).
Ein weiteres Zeichen dafür, dass die Open-Source-Suche boomt, ist, dass jeder Solr-Ingenieure einstellen möchte. Unsere Strategie besteht darin, sie in unseren Schulungskursen Solr Unleashed und Solr Under The Hood auszubilden, sie in die Welt hinauszuschicken, damit sie reifen und reifen können, und sie dann von unseren Kunden abzuwerben, damit sie für unser Unternehmen arbeiten, wenn sie wirklich gut werden. Wie ich höre, funktioniert das gut, aber wir brauchen noch mehr von ihnen. Wenn Sie zu Lucidworks kommen, werden Sie vielleicht sogar mit mir zusammenarbeiten, aber ich würde es verstehen, wenn Sie bei der Annahme eines Stellenangebots die Bedingung stellen würden: „Ich komme, wenn Sie mich nicht mit diesem schrulligen alten Bastard arbeiten lassen!“ Ich bin mir sicher, dass die Stretch Armstrong Boys ebenfalls händeringend nach Mitarbeitern suchen.
Also zurück zu den Göttern der Anbieter. Es ist ihnen hoch anzurechnen, dass sie die Open-Source-Revolution in großem Stil vorantreiben. Wenn Oracle nichts weiter tut, als Java beizusteuern, zu pflegen und weiterzuentwickeln, dann haben sie schon viel getan! Google hat natürlich viele großartige Dinge beigetragen, darunter Guice, AngularJS und Word2Vec, um nur einige zu nennen. Sie haben auch Forschungsarbeiten über ihre Kerntechnologien wie BigTable und MapReduce veröffentlicht, die The Doug geholfen haben, als er mit der Arbeit an HDFS bzw. Hadoop begann. Sie haben es also „verstanden“. Microsoft ist natürlich eine ganz andere Geschichte und wird es immer bleiben. HP ist noch nicht einmal ein Softwareunternehmen – eigentlich. Wir haben gelernt, mit dem MS-Paralleluniversum zu interagieren, aber das war schon immer eine echte Qual. Was mich wundert, ist, wie sie es geschafft haben, Java zu klauen, als sie C-sharp (D flat?) entwickelt haben – und zwar mit einigen Verbesserungen – aber uns daran gehindert haben, problemlos damit zu interagieren. Es funktioniert nur nativ mit ihrer eigenen Kacke. Ein Blackbox-Genie.
Zusammenfassend lässt sich also sagen, dass die Suchwelt das Unternehmen, das Yonik und The Chump für uns geschaffen haben, voll und ganz annimmt und mit ihm läuft. Ich für meinen Teil habe eine großartige Zeit und vermisse die Arbeit mit den Engines überhaupt nicht. Danke Yonik. Danke Chumpman! Danke Solr Community – insbesondere den Committern, den Sultans of Solr, den Lords of Lucene – super Arbeit! Und ich sehe euch Rubbermaid Retrievalware Schwachköpfe auf dem Debattenparkett, wenn ihr bereit seid, die Handschuhe auszuziehen (aber bitte nicht an einem Fußballabend). Los geht’s!
** Ich habe den Begriff ‚vengines‘ von den Blogs meines guten Freundes Ted Sullivan über wohltemperierte Suchanwendungen geklaut, die er vor fast zwei Jahren bei Lucidworks veröffentlicht hat. Um Groucho zu paraphrasieren – wenn Ted noch näher dran wäre, würde er hinter mir sitzen. Sehen Sie sich den Hinweis am Ende dieses Beitrags an.