Mit Google Books Ngram Viewer einen Teil der Bücher der Welt abfragen

Google scannt ja, wie wir alle wissen, massenhaft die gedruckte Literatur der Welt ein und macht sie über Google Bücher durchsuchbar. Um welchen Umfang es dabei geht, verdeutlicht dieser Abschnitt aus dem ZEIT-Artikel« Google Books – Wie oft kam Gott?»:

Es hat zwar kein Mensch der Welt genug Zeit, um auch nur alle Bücher eines Jahrgangs zu lesen, aber mit der zunehmenden Digitalisierung von Büchern werden die Informationen von den Buchseiten gelöst und in eine computerverständliche Sprache übersetzt. Nicht alle etwa 129 Millionen Bücher, die jemals geschrieben wurden, sind digital verfügbar. Aber immerhin 15 Millionen Bücher will Internetgigant Google inzwischen in Universitätsbibliotheken rund um die Welt eingescannt haben.

Das wissenschaftliche Projekt culturomics.org hat sich einen Teil dieses enormen Datenbestandes herausgesucht, nämlich 5,2 Millionen Bücher mit der unfassbar großen Datenmenge von etwa 500 Milliarden Wörter. Die Untersuchung wird sowohl im bereits zitierten ZEIT-Artikel als auch in der NY Times beschrieben: In 500 Billion Words, New Window on Culture. Die Forschungsergebnisse des Teams um Erez Lieberman Aiden von der Harvard University sind in Science veröffentlicht worden: Quantitative Analysis of Culture Using Millions of Digitized Books.

Doch das beste: man kann unabhängig von diesen kultur- und sprachwissenschaftlichen Auswertungen eigene Feldforschung betreiben. Mit dem Tool Books Ngram Viewer.

Ein paar Beispiele (bitte beachten: die Suchabfragen sind case-sensitive, d.h. es wird zwischen Groß- und Kleinschreibung unterschieden):

Kontrollverlust, Privatsphäre, Datenschutz:
Kontrollverlust, Privatsphäre, Datenschutz

Saarland:
Saarland

das Blog, der Blog:
das Blog, der Blog

Weite Informationen siehe auch Artikel in Libreas: Kulturkurven für Achtjährige: Ein kurzer Blick auf Googles Ngrammatologie.

Und ansonsten einfach mal selbst ausprobieren: Books Ngram Viewer.

4 Gedanken zu “Mit Google Books Ngram Viewer einen Teil der Bücher der Welt abfragen

  1. @Julius: Subjektiv hab ich ja den Eindruck, dass das fälschlicherweise verwandte „der“ als Artikel für „das Blog“ leider immer häufiger benutzt wird, aber obige Statistik macht mir wieder Hoffnung, dass sich das korrekte „das Blog“ am Ende gegen die Ignoranz durchsetzen wird.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.