SEP 14 2019

Große, chaotische Datensätze sind oft nützlicher als kleine, ordentliche.

Wissen

In den 80er-Jahren arbeitete eine Gruppe von Ingenieuren bei IBM daran, ein Übersetzungsprogramm zu entwickeln, indem es große, wirre Datensätze durch Daten von möglichst hoher Qualität austauschte.

Trotz einiger anfänglicher Erfolge scheiterte das Projekt. Woran lag das?

Bisher war es üblich gewesen, solche Programme mit Wörterbüchern und Grammatikregeln zu füttern, doch die IBM-Mitarbeiter beschlossen stattdessen, möglichst viel bereits übersetzten Text in das Programm einzuspeisen und aus diesen Daten Berechnungen zu erstellen, nach welchem Wort oder Satz in einer bestimmten Situation gesucht wurde. Dafür hatten sie drei Millionen Satzpaare aus den offiziellen Übersetzungen von Dokumenten des kanadischen Parlaments zur Verfügung. Das neue Programm war zwar sehr gut darin, häufige Wörter und Sätze zu übersetzen, doch bei selteneren Wörtern versagte es. Das Problem war hier nicht die Qualität der Daten – die waren immerhin beglaubigt korrekt übersetzt – sondern die Quantität. Es waren einfach nicht genügend Daten vorhanden.

Daraus lässt sich schließen: Je kleiner ein Datensatz, desto mehr Probleme gibt es mit Ungenauigkeiten, v.a. wenn wir uns mit Werten beschäftigen, die eher selten im Datensatz vorkommen. Je größer die Datenmenge wird, desto genauer werden die Ergebnisse.

Weniger als eine Dekade nach dem gescheiterten IBM-Projekt versuchte Google es mit einem etwas anderen Ansatz: Anstatt relativ wenige Daten mit hoher Qualität verwendeten sie alle Übersetzungen, die sie im Internet finden konnten, egal wie gut oder zuverlässig sie waren. Obwohl die Qualität der Daten sehr zweifelhaft war, war das Endergebnis viel besser als bei allen vergleichbaren Systemen.

Das liegt daran, dass Ungenauigkeiten bei großen Datenmengen einfach in der Masse untergehen. Ein einziges falsch übersetztes Wort in den kanadischen Parlaments-Dokumenten konnte das IBM-Programm ins Schleudern bringen. Ein einziges falsch übersetztes Wort fällt in den Weiten des world wide web niemandem auf – auch nicht Google Translate.

Print Friendly, PDF & Email

There are no comments

Leave a Reply