Datenvisualisierung zu 10 Jahre Wikipedia | Kundenservice | DW | 23.03.2011
  1. Inhalt
  2. Navigation
  3. Weitere Inhalte
  4. Metanavigation
  5. Suche
  6. Choose from 30 Languages

Kundenservice

Datenvisualisierung zu 10 Jahre Wikipedia

Unsere interaktive Grafik zeigt die Entwicklung der deutschen Wikipedia in den vergangenen 10 Jahren. Welche Daten haben wir dafür verwendet? Wie ist die Visualisierung entstanden? Antworten gibt es hier.

Wikipedia ist eine der populärsten Internetseiten der Welt

Wikipedia ist eine der populärsten Internetseiten der Welt

Auf welcher Datenbasis wurde die Visualisierung erstellt?

Wikipedia wird von der gemeinnützigen Stiftung Wikimedia betrieben. Diese bietet auf der Seite dumps.wikimedia.org Daten zu Wikipedia zum Herunterladen an. Für die Visualisierung der Tagesaktivitäten wurden die Rohdaten aller Bearbeitungen der deutschen Wikipedia von 2001 bis 2010 durchsucht. Die übrigen Daten hat Wikimedia schon selbst ausgewertet und bietet diese in tabellarischer Form auf einer eigenen Seite an.

Wie groß sind die verwendeten Datenmengen?

Bei den Rohdaten handelt es sich um ein einziges 20 Gigabyte großes XML-Dokument. Darin enthalten ist eine Liste mit den Titeln aller Wikipedia-Artikel. Zu jedem Artikel gibt es noch dazu die komplette Bearbeitungsgeschichte (also wer wann den Artikel bearbeitet hat).

Wie können solche riesigen Datenmengen ausgewertet werden?

Die einzige Möglichkeit solche Datenmengen auszuwerten besteht darin, einen so genannten Scraper zu schreiben. Das ist ein kleines Programm, das die Daten nach vorgegebenen Kriterien durchsucht und automatisch gewünschte Daten ausliest. In der Regel werden Scraper zum Auslesen von Informationen aus weniger gut strukturierten Datenquellen (wie zum Beispiel Webseiten) verwendet.

Warum wurde die Spiralform für die Visualisierung ausgewählt?

Die analysierten Daten lagen jeweils für einzelne Monate vor. Um herauszufinden, ob die Entwicklung der Wikipedia linear oder saisonal unterschiedlich erfolgt, braucht man eine Darstellungsform, die das auf einen Blick möglichst eindringlich sichtbar machen kann. Anhand der Spiralform kann man das leicht sehen. Wäre die Wikipedia gleichförmig linear gewachsen, hätte sich eine ideale Spiralform ergeben. Das ist aber nicht der Fall. Bei einigen Faktoren, wie zum Beispiel bei "Neue Artikel pro Tag", kommt es zu Anomalien, die sich in deutlich sichtbaren Auswölbungen äußern. Klickt man auf "Aktive Wikipedianer" wird auf einen Blick sichtbar, dass etwa seit 2008 die Zahl stagniert und sogar zurückgeht.

Autor: Steffen Leidel, Gregor Aisch
Redaktion: Marcus Bösch

WWW-Links