Kommerzielle vs. Open Source Sprachpakete: Ein Interview mit Andrew Paulsen, Regionaldirektor bei Basis Technology

Heute sprechen wir mit Andrew Paulsen von Basis Technology über ihre kommerziellen Sprachpakete. Seit Basis auf den Markt kam, hat…

Heute sprechen wir mit Andrew Paulsen von
Basis Technology
über ihre kommerziellen Sprachpakete.

Seit Basis auf den Markt kam, hat Open Source große Fortschritte bei der Unterstützung mehrerer Sprachen gemacht.
Solr unterstützt nicht nur viele europäische Sprachen, sondern bietet auch mehrere Optionen für
Japanisch
und
Chinesisch,
einschließlich der morphologischen Tokenisierung.
Aber trotz all dieser Fortschritte gibt es Basis immer noch, um seine Waren zu verkaufen.

Warum sollte jemand für Software bezahlen, wenn es Open-Source-Alternativen gibt, insbesondere bei der Verwendung einer Open-Source-Suchmaschine?
Was sind die Vorteile der kommerziellen Pakete? Und wie kommt es, dass Basis immer noch im Geschäft ist?
Andrew war so gnädig, unser Verhör zu ertragen!

 

Hallo Andrew, vielen Dank für das Gespräch.
Können Sie uns zunächst etwas über die Basis erzählen und vielleicht auch ein wenig über Ihren Hintergrund?

Sicher. Basis Technology besteht seit über 18 Jahren und liefert Textanalysesoftware an einige der erfolgreichsten und innovativsten Softwareunternehmen der Welt wie Adobe, EMC, Google, Microsoft, HP, Salesforce.com, Oracle, Symantec und Yahoo!… um nur einige zu nennen. Ich arbeite seit dem Jahr 2000 in unseren Büros in San Francisco. Ja, Sie haben richtig gehört, 12 Jahre, das ist eine lange Zeit in der Softwarebranche. Im Laufe der Jahre habe ich mit zahlreichen Softwareunternehmen (darunter alle oben genannten) zusammengearbeitet, um die Qualität ihrer Web- und Unternehmenssuche durch die Implementierung von sprachspezifischer linguistischer Unterstützung zu verbessern.

 

Lassen Sie uns gleich zur Sache kommen. Ich nehme an, Sie bekommen diese Frage häufig gestellt. Solr wird inzwischen mit einer ganzen Reihe von sprachspezifischen Analysatoren geliefert. Warum also sind die Unternehmen immer noch bereit, Sprachpakete von kommerziellen Anbietern zu kaufen?

Ja, eine sehr gute Frage. Man sollte meinen, dass unser Geschäft schrumpfen würde, aber es wächst tatsächlich beträchtlich. Ich denke, das liegt daran, dass die Softwareunternehmen immer anspruchsvoller werden und mehr Wert aus einer qualitativ hochwertigen linguistischen Analyse ziehen können. Außerdem glaube ich, dass sich die Unternehmen stärker auf Märkte außerhalb der USA konzentrieren, um dort zu wachsen, und dass sie mehr Anstrengungen und Ressourcen in die Entwicklung einer qualitativ hochwertigen Unterstützung für die Suche in Fremdsprachen stecken, anstatt nur Checkbox-Funktionen zu entwickeln.

Zusammenfassend lässt sich sagen, dass wir im Vergleich zu Open Source Linguistik eine höhere Qualität, tiefgreifendere Funktionen, eine breitere Sprachabdeckung und eine bessere Leistung/Zuverlässigkeit bieten. Und wie Sie wissen, sind Softwareingenieure heutzutage teuer, insbesondere Suchingenieure mit einem NLP-Hintergrund. Unternehmen können tatsächlich Geld sparen und die Entwicklungsproduktivität steigern, indem sie eine kommerzielle, fertige NLP-Plattform lizenzieren, anstatt diese gut bezahlten Ingenieure mit der Implementierung und dem Testen verschiedener linguistischer Module aus aller Welt mit unterschiedlichen Qualitäts- und Leistungsniveaus zu beauftragen.

 

Für westliche Sprachen ermöglicht die Basis u.a. die Lemmatisierung im Gegensatz zum einfachen Stemming. Das war etwas, worüber FAST ESP viel gesprochen hat, bevor es von Microsoft übernommen wurde. Können Sie uns mehr darüber erzählen und vielleicht auch, warum das wichtig ist? Haben Sie Beispiele?

Sicherlich… Nebenbei bemerkt war FAST einer unserer Kunden. Als Microsoft FAST übernahm, wechselten viele unabhängige Softwareanbieter, die FAST lizenziert hatten, zu SOLR/Lucene. Diese ehemaligen FAST-Kunden haben hohe Erwartungen an die nicht-englische Suche und so lizenzierten viele dieser Kunden unsere Software zur Integration in ihre SOLR-Implementierungen.

Was die Vorteile der Lemmatisierung im Vergleich zum Stemming betrifft, so bietet das Stemming kontextunabhängige Algorithmen, die Token normalisieren, indem sie das Ende der Wörter auf der Grundlage von Regeln abschneiden. Der resultierende Stamm ist kein echtes Wort, sondern ein Artefakt dessen, was einmal ein Wort war.

Beispiel:

  • Das Wort „Babys“ stammt von „babie“ ab.
  • Das Wort „Kopieren“ stammt von „copi“ ab.

Die Lemmatisierung hingegen ist kontextabhängig und normalisiert ein Wort auf seine wahre Form im Wörterbuch.

Beispiel:

  • Das Wort „Babys“ wird zu „Baby“ lemmatisiert
  • Das Wort „Kopieren“ lemmatisiert zu „kopieren“.

Das Stemming kann eine Menge Probleme verursachen, z.B. dass verschiedene Wörter denselben Stamm erzeugen oder dasselbe Wort verschiedene Stämme erzeugt. Es gibt auch viele Fälle, in denen das Stemming schlichtweg versagt und nichts tut, um das Wort zu normalisieren. Diese Arten von Problemen und Fehlern können für ein Unternehmen, das eine qualitativ hochwertige Suche anbieten möchte, verheerende Folgen haben.

Stemming wurde ursprünglich entwickelt, um die englische Suche zu unterstützen, und obwohl es einige Probleme mit englischem Stemming gibt, funktioniert es im Allgemeinen gut für Anwendungen zur Stichwortsuche. Die wirklichen Probleme kommen bei europäischen Sprachen ins Spiel.

Europäische Sprachen sind im Vergleich zum Englischen stark flektiert, d.h. je nach Kontext kann ein und dasselbe Wort auf verschiedene Weise geschrieben werden. Erinnern Sie sich noch daran, wie Sie in der Schule versucht haben, Spanisch zu konjugieren oder sich mit männlichen und weiblichen Formen zu beschäftigen usw.? Je flektierter eine Sprache ist, desto wichtiger ist eine morphologische Analyse, um das richtige Lemma für die Indizierung bereitzustellen.

Hier finden Sie ein Whitepaper mit ausführlichen Beispielen und Erläuterungen:

 

Bei der Indexierung von Text besteht der erste Schritt darin, ihn in Wörter aufzuteilen. Bei asiatischen Sprachen ist das schwierig, weil sie oft keine Leerzeichen zwischen den Wörtern haben. In den Anfängen von Solr gab es das primitive „ngram“-basierte CJK-Modul, das den Text einfach in Zeichenpaare zerlegte und kein Konzept für sprachliche Integrität hatte. Offensichtlich war Basis dem überlegen. Aber in den letzten Jahren wurden morphologische Analysatoren für Chinesisch und Japanisch hinzugefügt, und es sieht so aus, als ob Koreanisch in Arbeit ist. Wie wollen Sie mit diesen konkurrieren?

Zugegeben, die Open-Source-Analysatoren sind sicherlich besser geworden, aber unsere Technologie hat sich auch weiterentwickelt. So unterstützt der SOLR Chinese Analyzer zum Beispiel nur das vereinfachte Chinesisch und nicht das traditionelle Chinesisch. Das ist für viele Unternehmen ein entscheidender Nachteil, da die Unterstützung von vereinfachtem Chinesisch oft eine Voraussetzung ist.

Darüber hinaus bieten wir Unternehmen, die Wert auf eine qualitativ hochwertige Suche legen, weitergehende Funktionen wie ein Benutzerwörterbuch, eine Option zum Entfernen von Komposita, die Markierung von Wortbestandteilen, die Extraktion von Substantivphrasen und für Chinesisch auch die Lesung von Pinyin… Außerdem bieten wir verschiedene Knöpfe und Regler zur Feinabstimmung der Textverarbeitung, um die individuellen Suchanforderungen eines Unternehmens zu erfüllen. Diese Funktionen, die wir als Basislinguistik bezeichnen, stehen für alle Sprachen zur Verfügung, die Rosette von Basis Technology unterstützt.

Wir haben uns das SOLR-Modul für Japanisch angeschaut und es verfügt über eine Reihe von guten Funktionen. Es wurde von einem ehemaligen FAST-Mitarbeiter entwickelt, der in diesem Bereich sehr angesehen ist. Da das SOLR-Modul für Koreanisch noch nicht verfügbar ist, kann ich mich zu dieser Technologie nicht äußern.

Aber die eigentliche Erkenntnis ist folgende: Es gibt weltweit etwa 20-25 kommerziell bedeutende Märkte nach Sprachen. Wir bieten derzeit linguistische Analysen für über 40 Sprachen an, während SOLR nur ein paar Sprachen mit morphologischer Analyse unterstützt. Was passiert, wenn Sie eine hochwertige Suchunterstützung für Russisch, Deutsch, Spanisch, Niederländisch, Dänisch usw. benötigen?

Einer der wichtigsten Werte, die wir mitbringen, ist, dass wir all diese Sprachen mit den höchsten linguistischen Qualitätsstandards bearbeiten. Ein Entwicklungs- oder Produktmanager muss sich fragen: Will ich, dass meine hochqualifizierten (und teuren) Ingenieure verschiedene linguistische Software integrieren, testen und unterstützen, die von verschiedenen Gruppen/Individuen mit unterschiedlichem Grad an Qualität, Leistung und Stabilität entwickelt wurde, wenn es eine kommerzielle Plattform gibt, die ihnen diese Aufgaben abnimmt?

 

Gibt es Spezial- oder Nischensprachen, bei denen Sie einen Vorteil haben?

Es stimmt, dass die Sprachen Asiens und des Nahen Ostens komplexer sind als die europäischen Sprachen und eine hochwertige linguistische Verarbeitung benötigen, um qualitativ hochwertige Suchergebnisse zu erhalten. Man könnte also sagen, dass dies unser Nischenbereich ist. Tatsache ist jedoch, dass europäische Sprachen wie Französisch, Italienisch, Spanisch und Deutsch stark flektiert sind und eine kontextsensitive morphologische Analyse erfordern. Aus diesem Grund verzeichnen wir in Europa eine sehr starke Nachfrage nach unserer Plattform. Meine Antwort ist also, dass wir in allen Bereichen einen Vorteil haben.

 

Wie ist Ihre Software verpackt? Eine einfache Jar-Datei mit einigen Konfigurations- und Wörterbuchdateien?

Das Rosette SDK bietet auch eine Entitätsextraktion, die Entitäten wie Personen, Orte und Organisationen für über 20 Sprachen identifiziert. Entity Extraction kann zur Implementierung von Funktionen verwendet werden, die wir als „Discovery Search“ bezeichnen, z. B. facettierte Navigation, Trendbegriffe usw.. Und wie unsere Basislinguistik funktioniert auch die Entity Extraction sofort mit SOLR. Im Laufe des letzten Jahres haben wir einen deutlichen Anstieg der Nachfrage nach Entity Extraction festgestellt. Dies ist ein interessantes Thema und vielleicht können wir in naher Zukunft mehr darüber sprechen. In der Zwischenzeit finden Sie hier ein White Paper, das von Interesse sein könnte:

 

Verwenden Sie irgendeinen schrecklichen Lizenzmanager, der verteilte Installationen zu einem großen Problem macht?

Unsere Lizenzierungsmechanismen sind für Entwickler im Grunde unsichtbar und behindern verteilte Installationen in keiner Weise. Die Lizenzen sind nicht durch CPUs oder Durchsatz beschränkt. Die Software befindet sich auf den Servern unserer Kunden und kommuniziert nicht mit Basis Technology. Unsere Kunden haben die vollständige Kontrolle über die Software und werden technisch in keiner Weise eingeschränkt. Während wir hier sprechen, wird unsere Software auf einigen der größten verteilten Plattformen der Welt installiert und ausgeführt.

 

Wie Sie wissen, richtet sich dieses Interview an Entwickler. Wie kann ein Programmierer, der das Programm „ausprobieren“ möchte, damit beginnen? Was können sie herunterladen und ausprobieren? Und haben Sie Konfigurationsbeispiele für Solr?

Ja, wir versuchen, dies so einfach wie möglich zu machen. Das Antragsformular finden Sie hier: http://www.basistech.com/text-analytics/requests/evaluation-request.html

Ja, ja, ich weiß, dass Entwickler keine Formulare mögen. Der Vorteil ist, dass wir die Software für die Plattform der Wahl des Entwicklers kompilieren und E-Mail-Support für alle auftretenden Fragen bieten. Um die Software, die Dokumentation und den Support bereitstellen zu können, müssen wir einfach wissen, an wen wir unsere Software schicken.

Was die Beispiele für die Konfiguration von SOLR betrifft: Ja, absolut. Sie müssen lediglich ein paar Änderungen an der Schemadatei von Solr vornehmen. Unsere Dokumentation enthält konkrete Beispiele, die die Änderungen an der Datei schema.xml veranschaulichen, die für die Aktivierung unserer Analysatoren erforderlich sind. Wir bieten auch Quellen für den Java-Code, mit dem Solr mit unseren linguistischen Modulen verbunden wird, für Power-User, die die Funktionen unseres Solr-Connectors erweitern möchten.

 

Andrew, wenn die Leute bis hierher gelesen haben, haben Sie vielleicht ihr Interesse geweckt. Wie viel kostet das alles? Wie viele $0? Und wenn ich ein Startup-Unternehmen ohne viel Bargeld bin, macht es dann überhaupt Sinn, es zu versuchen?

Unsere Preise basieren darauf, wie und wo die Software eingesetzt wird. Das bedeutet, dass kleinere Unternehmen deutlich weniger für unsere Software bezahlen als beispielsweise Microsoft, Apple oder Google. Wir arbeiten mit vielen kleinen Startups zusammen.
Siehe hier:

 

Das ist sehr interessant, danke Andrew! Wo können die Techniker da draußen weitere technische Informationen erhalten? Und vermutlich muss man irgendwann mit einem Verkäufer sprechen. Wo ist dieser Link?

Wir sind ziemlich offen mit unserer Dokumentation und Software. Wenn Leser daran interessiert sind, können sie hier beginnen:

Wenn Sie spezielle Fragen haben, müssen Sie eventuell mit einem Vertriebsmitarbeiter sprechen, aber unsere Vertriebsmitarbeiter sind sehr technisch (nicht aufdringlich) und werden Sie gerne direkt mit einem unserer Entwickler in Verbindung setzen. Und schließlich sind sie wirklich nette Menschen (mich eingeschlossen).

 

You Might Also Like

KI-Agenten dominieren den Einkauf. Ist Ihre Website auf die KI-gestützte Suche vorbereitet?

Generative KI-Agenten wie ChatGPT definieren die Produktsuche neu. Erfahren Sie, wie Sie...

Read More

Vom Suchunternehmen zum praktischen KI-Pionier: Unsere Vision für 2025 und darüber hinaus

CEO Mike Sinoway gibt Einblicke in die Zukunft der KI und stellt...

Read More

Wenn KI schief geht: Fehlschläge in der realen Welt und wie man sie vermeidet

Lassen Sie nicht zu, dass Ihr KI-Chatbot einen 50.000 Dollar teuren Tahoe...

Read More

Quick Links