Forschungsquartett | Big Data und Sprachwandel

Mit Google dem Sprachwandel auf der Spur

13.11.2014

Wie vollzieht sich der Sprachwandel? Welche gesellschaftlichen Umbrüche lassen neue Wörter entstehen? Die Antworten stehen in 13 Millionen Büchern.

Seit einigen Jahren arbeiten Linguisten an der computergestützten Analyse größere Datenbestände. Sie sollen ihnen helfen, den Sprachwandel besser zu verstehen: Welche Wörter werden tatsächlich genutzt? Welche gewinnen an Popularität, und warum? Was ist der Kernwortschatz einer Sprache? Verändert er sich? Solche Fragen lassen sich mit dem Duden nicht beantworten.

Etwa sechs Prozent aller jemals gedruckten Bücher wurden analysiert

Jetzt ist Google den Linguisten einen großen Schritt entgegengekommen. Mit dem dem Ngram-Viewer, einem Dienst von Google-Books, lässt sich die Verwendungshäufigkeit von Wörtern durch die Jahrhunderte verfolgen. Diese sogenannte Frequenz gilt als einer der wichtigsten Faktoren, um den Sprachwandel zu untersuchen.

Der Ngram-Viewer erscheint zunächst wie eine nette Spielerei mit Suchtpotential. Auf der Startseite lässt Google bereits Frankenstein gegen Sherlock Holmes antreten: Wer wurde in den vergangenen 200 Jahren häufiger genannt? Zahlreiche Parameter erlauben aber auch komplexere Abfragen.

Vor allem Kriege scheinen den Sprachwandel zu beeinflussen

Søren Wichmann vom Max-Planck-Institut für evolutionäre Anthropologie hat auch das nicht gereicht. Er hat sich gleich die Rohdaten von Google heruntergeladen. Denn was der Ngram-Viewer als Datengrundlage nutzt, darauf haben Linguisten lange gewartet: Google hat per Texterkennung alle Wörter aus seinem umfangreichen Google-Books Korpus ausgelesen, aufbereitet und in Listen sortiert. So lässt sich nachschlagen, wie oft ein Wort in einem bestimmten Jahr verwendet wurde. Allerdings sind diese Listen unglaublich groß: Sie umfassen ganze 860 Milliarden Wörter. Dabei wurden bislang erst acht Sprachen ausgewertet.

Wir haben untersucht, wie sich die Frequenzen von Wörtern in der Zeit verändert haben. Wir haben herausgefunden, dass diese Veränderungen von gesellschaftlichen Veränderungen bedingt sind. Vor allem Kriege und sehr große historische Ereignisse haben die Sprachen beeinflusst.Søren Wichmann, Linguist am Max-Planck-Institut für evolutionäre Anthropologie

Um die Daten auszuwerten, hat sich Wichmann mit einem Astrophysiker und einem Mathematiker zusammengetan. Physiker hätten im Augenblick einfach die effizientesten Methoden, derartig große Daten zu untersuchen. In vielen geisteswissenschaftlichen Bereichen könnten sie daher gewinnbringend arbeiten.

detektor.fm-Redakteur Mike Sattler stellt das Forschungsprojekt und seine bisherigen Ergebnisse vor.

Portrait Søren Wichmann, Linguist am MAx-Planck-Institut für evolutionäre Anthropologie in Leipzig.Es ist traurig, aber es ist einfach so, dass im Krieg neue Dinge passieren. Viele technologische Entwicklungen kommen aus den Kriegen. Auch sprachliche Entwicklungen. Ich glaube nicht, dass das heißt, wir bräuchten Kriege, um die Gesellschaft weiter zu entwickeln. Aber Kriege haben großen Einfluss.Søren Wichmannforscht am Max-Planck-Institut für evolutionäre Anthropologie in Leipzig. (Foto: Mike Sattler) 

Der Beitrag zum Nachlesen

Früher war Whiskey mehr populär, wurde häufiger angewandt, aber dann sieht man wie ‚Vodka‘ sich an ‚Whiskey‘ annähert und heutzutage, die letzten zwei Jahren ist ‚Vodka‘ häufiger geworden als ‚Whiskey‘. Was kann man davon ausleiten? Ich weiß nicht. Nicht so viel. Vielleicht kleine Geschichten über Vodka und Whiskey.

Søren Wichmann ist weder Barmann noch Marketingexperte. Er ist Linguist und arbeitet am Max-Planck-Institut für Evolutionäre Anthropologie in Leipzig. Und er interessiert sich weniger für Spirituosen, sondern vielmehr für Sprachen und Wörter. Eher als Spielerei hat er nachgesehen, wie sich die Verwendung der beiden Wörter Whiskey und Vodka in der englischsprachigen Literatur in den letzten zweihundert Jahren entwickelt hat.

So eine Untersuchung ist inzwischen sehr einfach. Im Internet stellt Google einen Dienst bereit, der genau solche Abfragen ermöglicht. Der Google Ngram-Viewer. Der Ngram-Viewer erstellt Diagramme, auf deren Kurven sich abbildet, wie häufig bestimmte Wörter verwendet werden. Und wie sich diese Verwendung über die Zeit verändert.

Grundlage sind die Daten von Google-Books. Google hat in den vergangenen 10 Jahren geschätzte 6 Prozent aller jemals gedruckten Bücher digitalisiert. Für den Ngram-Viewer sind über 13 Millionen Bücher analysiert worden. Daraus extrahierte Google Listen der enthaltenen Wörter.

Schier endlose Listen, sortiert nach Sprache und Alphabet. Zu jedem Wort findet sich die Angabe, wie oft es in welchem Jahr auftaucht. So lässt sich ablesen, wie oft ein Wort verwendet wurde. Und wie sich diese Verwendung über die Zeit verändert. Linguisten sprechen in diesem Zusammenhang von der Frequenz eines Wortes.

Es sind insgesamt 860 Milliarden Wörter in acht verschiedene Sprachen. Aber Google hat diese Listen, diese Frequenzen zur Verfügung gestellt. Das haben wir benutzt.

860 Milliarden Wörter – eine gewaltige Datenmenge. Alleine die Liste der englischen Wörter auf „A“ ist knapp 2 Gigabyte groß. Mit einem gewöhnlichen Textverabeitungsprogramm lässt sie sich gar nicht erst öffnen. Und Wichmann hatte Fragen, die ihm der von Google angebotene Ngram-Viewer nicht beantworten konnte.

Also schloss er sich mit zwei russischen Wissenschaftlern von der Universität in Kasan zusammen. Die sind allerdings keine Linguisten. Valery Solovyev ist Mathematiker, Vladimir Bochkarev ist Astrophysiker. Laut Wichmann arbeiten besonders Physiker immer häufiger in der Linguistik.

Und warum? Na ja, weil die Munition haben, um komplexe Systeme zu studieren. Die arbeiten schon mit große Datenmengen, und jetzt haben wir auch innerhalb der Geisteswissenschaften große Datenmengen. Google Ngrams ist ein gutes Beispiel mit 860 Milliarden Wörtern. Die Physiker sind schon bereit, aber dann brauchen sie trotzdem die Geisteswissenschaftler, um zu interpretieren was das alles heißt.

Das die Zusammenarbeit fruchtbar war, zeigen die Ergebnisse der Studie. Betrachtet man die Veränderungen von Worthäufigkeiten über die vergangenen 200 Jahre, stechen einem sofort zwei heftige Ausschläge ins Auge: Die Zeit der Weltkriege.

Ja also wenn wir zum Beispiel das Englische Korpus angucken, dann sieht man deutlich, dass während den zwei Weltkriegen die Häufigkeiten sehr viel schwanken, sie verändern sich sehr viel. Vermutlich weil die Leute jetzt über andere Sachen sprechen. Vielleicht gibt es Entlehnungen von Wörtern aus den anderen Ländern, zum Beispiel aus Deutsch: Dinge wie Nazi. Das heißt man sieht, dass die Sprache wie ein Barometer von gesellschaftlichem Wetter funktioniert.

Ähnlich prägnant erscheint auf den Diagrammen für die russische Sprache die russische Revolution. Allerdings weist der Wandel geschriebener Sprache nicht immer gleich auf große gesellschaftliche Umbrüche hin. So lassen sich zwei Phasen vermeintlich heftigen Sprachwandels im Deutschen vermutlich mit Rechtschreibreformen erklären. Die gab es in Deutschland 1901 und 1996. Denn wird ein Wort anders geschrieben, erscheint es in den Listen auch einfach als anderes Wort. Da man sich nur auf die Wortfrequenzen stützt, muss man mit Deutungen vorsichtig sein, sagt Wichmann:

Es wird schwierig genau zu sagen, welche Ereignisse genau verantwortlich sind, dass die Sprachen, die Häufigkeiten von Wörtern, sich verändern. Das was wir gemacht haben ist nur ein erster Schritt.

Leider aber können die Wissenschaftler nicht weiter ins Detail gehen. Denn aus Urheberrechtsgründen sind die verwendeten Bücher nicht einsehbar. Ob das Scannen all der Bücher überhaupt rechtmäßig war, ist noch immer umstritten.

Die Büchersammlung von Google ist zwar die größte der Welt. Zum Glück ist sie aber nicht die einzige. Søren Wichmann hat sich bereits alle Bücher von Projekt Gutenberg heruntergeladen, einer digitalen Sammlung urheberrechtsfreier Literatur im Internet. Da könne man eine detailliertere Studie machen, sagt er. Weil man für jedes Wort nachschlagen kann, wie und wo es gebraucht wird, in welchem Satz und in welchem Buch. Das Projekt Gutenberg, das ist viel kleiner als Google-Books. Statt 13 Millionen Büchern sind es nur dreißig- oder vierzigtausend.