Für The Guardian ist Solr die neue Datenbank
Vor ein paar Tagen habe ich darüber gebloggt, wie Open Search Source die Beziehung zwischen Daten und Datenzugang stört, und dabei den Vortrag von Matthew Wall bei The Guardian erwähnt. Die Folien erzählen die Geschichte recht gut.
Zwei Punkte sind von besonderem Interesse. Erstens: Angesichts der neuen Medienlandschaft hat The Guardian erkannt, dass es nicht ausreicht, Daten zu kuratieren und abzurufen: Sie müssen „die Nachrichten auf Gegenseitigkeit beruhen lassen“, indem sie die Datenstruktur des Internets unterstützen (siehe Folie 26). Die Öffnung von Solr-basierten APIs, die es 3d-Parteien ermöglichen, innovative Mechanismen für die Bereitstellung von Nachrichten zu entwickeln, eröffnet dem Guardian neue Vertriebskanäle, die neue Kunden und Märkte erreichen.
Zweitens: Bei all dem Gerede über Cloud-Datenspeicher könnte man meinen, dass MapReduce wirklich alles ist, um die Grenzen der strukturierten Abfragesprache aufzubrechen. Jetzt, da Google der Apache Software Foundation das Patent für MapReduce erteilt hat, erwarte ich, dass die Innovation auf der Datenseite wirklich aufblühen wird. Tatsächlich sind neben unseren „Cousins“ bei Cloudera zwei neue Hadoop-Unternehmen entstanden: Datameer und Karmasphere (die reimenden Berater waren fleißig). Zusammen mit MongoDB, Cassandra, CouchDB, Memcache, Hypertable und den anderen NoSQL-Varianten gibt es eine Vielzahl von Möglichkeiten, über das relationale Modell hinauszugehen. Aber was machen Sie mit all den Daten (und davon gibt es eine Menge), wenn Sie sie erst einmal gespeichert haben? Zuordnen, reduzieren und …?
…Index und Suche, meistens mit Lucene/Solr. Es ist gut, die Daten losgelöst von den Zwängen strukturierter Zeilen und Spalten zu speichern; danken Sie den vielen Cloud-Datenbanken mit dem „No-S“ von „No-SQL“. Wenn es um die Sprache der Abfragen geht, bedeutet No-QL vielleicht wirklich Lucene/Solr? Lesen Sie, was The Guardian sagt, ab Folie 35.