Zur Bundestagswahl 2017 wollen wir eine kleine Datenauswertung basierend auf meinem Scraping- und Processing-Framework molescrape machen. Hierzu habe ich mehrere deutsche Nachrichtenportale beobachtet und ihre Artikel ausgewertet. Leider kam mir die Idee sehr kurzfristig, sodass wir bei den meisten Seiten lediglich auf eine Woche Berichterstattung blicken können.

Im Detail habe ich folgende deutsche Nachrichtenportale ausgewertet:

  • bild.de
  • faz.net
  • spiegel.de
  • sueddeutsche.de
  • zeit.de

Hiervon sind Bild, Süddeutsche und FAZ die drei auflagenstärksten überregionalen Tageszeitungen. Zeit ist die auflagenstärkste Wochenzeitung (abgesehen von Bild am Sonntag, welche aber bereits mit bild.de abgedeckt ist) und der Spiegel dürfte vermutlich das verbreitetste Monatsmagazin sein (und meinem Empfinden nach auch die wichtigste Online-Zeitung).

Parteien

Steigen wir damit direkt in die Thematik ein. Die naheliegendste Frage bei einer Wahl ist natürlich, über welche Parteien wie häufig berichtet wurde. Hierzu habe ich mir angesehen, welche Parteinamen im Titel eines Artikels vorkamen und dann die Anzahl der Artikel pro Partei gezählt.

Kritisch sind hierbei ein wenig die Grünen, weil ihr Name einerseits in verschiedenen Variationen vorkommen kann, wie z.B. “Grüne stimmen für …”, “Die Grünen …” oder “… bei den Grünen”, andererseits aber auch andere Themen die Bezeichnung “grün” tragen können, wie z.B. “Grüne Energie …”. Ich habe mir für diese Auswertung keine weiteren Umstände gemacht und tatsächlich nur nach dem Teilwort “Grüne” in Titeln gesucht. Die Zahlen für Artikel über die Grünen müssen also mit Vorsicht betrachtet werden und dürften realistischerweise etwas geringer liegen.

In dieser Auswertung ist jeweils die Kalenderwoche 38 bis zum Samstag-Nachmittag zusammengefasst. Für zeit.de gäbe es auch ältere Daten, aufgrund der Vergleichbarkeit habe ich diese jedoch entfernt.

Anzahl der Artikel mit Parteinamen im Titel pro Zeitung

Auffällig ist, dass jede Zeitung vorwiegend über die AfD berichtet. Artikel über die AfD sind anscheinend höchst beliebt. Mögliche Gründe hierfür gibt es sicherlich viele: Man könnte die politischen Gründe nennen, weil die AfD weiter rechts ist als die bisher etablierten Parteien und deshalb über diese neue Partei berichtet werden muss. Oder man könnte die digitale Vermarktung sehen, weil Artikel über die AfD üblicherweise sehr viele Klicks und Kommentare anziehen.

Als ich mir die Zeitungsdaten angesehen habe, ist mir aufgefallen, dass es dort auch einige DPA-Meldungen gibt, welche ich als Nutzer der Portale eher selten gesehen habe. Diese werden vermutlich nur sehr kurz auf der Startseite eingeblendet oder an unmarkanten Stellen. Weil ich in meinen Auswertungen Informationen zu den Autoren der einzelnen Artikel habe, können wir uns die gleiche Auswertung noch einmal für Artikel mit namentlich genannten Autoren anschauen.

Anzahl der Artikel mit Parteinamen im Titel pro Zeitung, nur Artikel mit Autoren

An den Verteilungen ändert sich dadurch in der Regel wenig. Auffällig ist, dass die FDP bei der FAZ keine Artikel mit namentlich genannten Autoren mehr hat. Auch bei der Zeit scheinen viele Artikel über die FDP ohne namentlich genannte Autoren vorhanden zu sein, an den relativen Verhältnissen ändert sich sonst jedoch nichts.

In der Bild-Zeitung sind die AfD und die SPD extrem stark vertreten. Die FAZ ist in der Auswertung mit allen Artikeln relativ ausgewogen (leichte Überzahl bei AfD und Grünen), bei Artikeln mit Autoren dominieren AfD und CDU. Spiegel, Süddeutsche und Zeit schreiben vergleichsweise viel über die SPD, allerdings enorm viel über die AfD. In der Zeit wird neben der SPD auch verstärkt über die FDP berichtet.

Kandidaten

Als nächstes können wir eine ähnliche Auswertung für die einzelnen Kandidaten vornehmen. Wie oft wurde über welchen Kandidaten berichtet? Welche Spitzenkandidaten gibt es überhaupt und welche sind bekannt? Ich persönlich kenne natürlich Angela Merkel und Martin Schulz. Außerdem kenne ich als Spitzenkandidaten noch Christian Lindner von der FDP, weil die Zeit einige Artikel über ihn hatte. Die übrigen Kandidaten kannte ich zwar zum Großteil aus ihrer politischen Karriere, wusste jedoch nicht, dass sie nun als Spitzenkandidaten antreten.

  • CDU: Angela Merkel
  • CSU: Joachim Herrmann
  • SPD: Martin Schulz
  • Grüne: Katrin Göring-Eckardt und Cem Özdemir
  • Die Linke: Sahra Wagenknecht und Dietmar Bartsch
  • FDP: Christian Lindner
  • AfD: Alice Weidel und Alexander Gauland

Einige Parteien treten also mit zwei Spitzenkandidaten an, hier müssen wir alle Namen betrachten. Ansonsten sind glücklicherweise alle Namen recht eindeutig und dürften nicht in anderer Verwendung in Artikel-Überschriften vorkommen.

Auch in dieser Auswertung sind wieder alle Artikel der Kalenderwoche 38 bis zum Samstag-Nachmittag enthalten. Die Zeit schreibt also wirklich so viele Artikel über die Spitzenkandidaten in einer Woche.

Anzahl der Artikel mit Kandidatennamen im Titel pro Zeitung

Im Bereich der Personen haben wir bei der Bild-Zeitung und der FAZ eine relativ flache Verteilung mit wenigen Artikeln allgemein. Spiegel und Zeit berichten sehr viel über die beiden Kanzlerkandidaten und die Süddeutsche (aus Bayern stammend) berichtete als einzige über Joachim Herrmann von der CSU.

Im Gegensatz zu Parteinamen in den Artikel-Überschriften gibt es bei den Kandidatennamen überhaupt keine Häufung von Artikeln über die AfD.

Beachtet werden muss bei dieser personalisierten Auswertung allerdings, dass über Merkel auch in ihrer Funktion als Bundeskanzlerin berichtet wird. Dass diese Artikel ebenfalls einen Einfluss auf die Wahl haben, ist klar, aber unter diesem Gesichtspunkt wirkt die Berichterstattung über Merkel und Schulz zahlentechnisch sehr ausgeglichen. Über die Inhalte sagen die reinen Zahlen allerdings nichts aus.

Parteien-Kombinationen

Häufig wird vor Bundestagswahlen auch über mögliche Koalitionen spekuliert. Bei der Bundestagswahl 2017 sind die nach den bisherigen Prognosen einzigen realistischen Optionen die Jamaika-Koalition und eine Wiederholung der Großen Koalition. Daher könnten wir als nächstes Auswerten, welche Parteien in Artikeln gemeinsam genannt werden. Hilft uns das dabei, mögliche Koalitionen zu finden? Wir werden sehen.

Parteien-Nennungen in Artikeln

Fangen wir erst einmal langsam an und schauen uns an, wie häufig die Parteien für sich alleine in den Artikeln genannt werden. Methodisch habe ich hierfür nur nach ganzen Wörtern gesucht, dabei für die Grünen dann aber den Begriff “Grünen” aus “Die Grünen” verlangt. Bei Der Linken wird “Linke” als Wort verlangt (von “Die Linke”) und bei den übrigen Parteien das Parteikürzel CDU, SPD, FDP oder AfD. Die Groß-/Kleinschreibung muss ebenfalls exakt wie angegeben erfolgen. Die Bild-Zeitung wurde in diesem Fall nicht ausgewertet, weil ich von dort noch keine Textdaten habe. Bei Zeitungen, die mit mehrseitigen Artikeln arbeiten, wurde jeweils nur die erste Seite ausgewertet.

Anzahl der Artikel mit Parteinamen im Text pro Zeitung

In diesem Fall bietet sich ein anderes Bild auf die Verteilung. Anscheinend ist AfD insbesondere in Titeln ein extrem starker Aufmacher, was auf obige Theorie nach Clickbaiting hindeuten würde (d.h. Zeitungen mögen Artikel über die AfD, weil diese sehr viel angeklickt werden, was Werbeumsatz generiert). Das ist allerdings nur eine Theorie und mögliche Interpretation des Umstands, dass die AfD in Titeln anteilig wesentlich stärker vertreten ist als in Inhalten.

Im Grunde ist die Parteinennung bei den unterschiedlichen Zeitungen hier recht ähnlich. Die SPD wird am meisten erwähnt, gefolgt von der CDU. AfD liegt etwas höher als FDP und Grüne und die Linke ist in allen Zeitungen etwas abgeschlagen. Auffällig ist lediglich, dass die Süddeutsche sehr wenig über die CDU berichtet.

Woher könnte das kommen? Gab es da nicht noch eine Partei in Bayern, mit einem ähnlichen Namen wie die CDU? Die immer mit der CDU koaliert? Ja genau, wir haben die CSU vergessen!

Auch hier können wir wieder die Verteilung ansehen und nun sieht das Bild stimmiger aus. In allen Zeitungen wird mehr über die CDU als über die CSU berichtet, nur in der Süddeutschen aus Bayern ist es umgekehrt. Insgesamt wird überall am meisten über die Kombination CDU/CSU berichtet und am wenigsten über die Linke. Und auch AfD, Grüne und FDP sind überall ähnlich vertreten.

Anzahl der Artikel mit Parteinamen im Text pro Zeitung, inkl. CSU

Auch diese Auswertung können wir wieder auf Artikel beschränken, die einen namentlich genannten Autor haben. Dann gehen die Anteile für CDU/CSU und SPD in der Süddeutschen stark nach oben und in den anderen Zeitungen etwas nach unten.

Anzahl der Artikel mit Parteinamen im Text pro Zeitung, inkl. CSU, nur Artikel mit Autoren

Erlauben wir uns noch einen kleinen Spaß, weil die Verteilung grob nach den bisherigen Wahlprognosen aussieht. Wir nehmen nun alle Artikel mit namentlich genannten Autoren aller Zeitungen und errechnen die Anteile für die jeweilige Partei. Die Meldungen ohne Autoren (häufig Agentur-Meldungen) schließe ich aus, weil ich diese auf den Nachrichtenportalen sehr selten gesehen habe und vermute, dass sie eher versteckt werden und keine große Reichweite erzielen.

Anteile der Parteiennennung

Im Vergleich zu den Prognosen unterschätzen wir die CDU und die Linke stark und überschätzen die AfD und die Grünen. SPD und FDP liegen etwa gleich wie in den Prognosen. Ich vermute, dass wir damit keine exakte Wahlvorhersage machen können, aber interessant ist es dennoch, dass die Verteilung ganz grob den tatsächlichen Verhältnissen entspricht.

Verbindungen zwischen Parteien

Mit diesem Überblick können wir nun einen Schritt weiter gehen und uns die Verbindungen zwischen den Parteien ansehen. Hierzu zählen wir für jeden Artikel, in welchem zwei Parteien gleichzeitig vorkommen, einen Zähler für diese beiden Parteien hoch. Anschließend können wir in einem 2D-Diagramm auftragen, welche Parteien wie häufig gemeinsam genannt wurden. Die Kombination einer Partei mit sich selbst habe ich dabei auf 0 gesetzt.

Beispiel: Es gibt einen Artikel, in dem CDU, SPD und FDP gemeinsam genannt werden, und einen Artikel, in dem CDU und SPD gemeinsam genannt werden. Dann erhalten wir folgende Zählerstände:

  • CDU / SPD: 2
  • CDU / FDP: 1
  • SPD / FDP: 1

Gemeinsame Nennung der Parteien in Artikeln

Wie wir sehen werden CDU und SPD sehr häufig gemeinsam genannt. Dies könnte allerdings auch daran liegen, dass beide im Moment in der Regierung sind und damit naturgemäß zusammenarbeiten. Auffällig ist allerdings, dass die SPD insgesamt die dunkelsten Kästchen hat, also am meisten zusammen mit anderen Parteien genannt wird. Dies liegt daran, dass die SPD allgemein in den meisten Artikeln genannt wird und damit auch die größten Chancen hat, häufig gemeinsam mit anderen Parteien genannt zu werden.

Um dieses Problem zu vermeiden, sollten wir die Kombinationshäufigkeiten normalisieren. Dies lässt sich mit dem Sorensen-Dice-Index erledigen. Dieser berechnet die Häufigkeit der gemeinsamen Nennung in Relation zur Einzelnennung beider Parteien. Der Sorensen-Dice-Index gibt auf einer Skala von Null bis Eins an, wie ähnlich sich zwei Parteien sein sollten - basierend darauf, in wie vielen Artikeln sie gemeinsam genannt wurden.

Ähnlichkeiten der Parteien

Nach der Standardisierung hat jede Partei zu sich selbst eine Ähnlichkeit von 1. Bei unterschiedlichen Parteien sind immer noch die CDU und SPD führend, gefolgt von FDP und Grünen. Kaum zusammen genannt - und dies entspricht tatsächlich der politischen Landschaft - werden CDU/CSU und Linke.

Besondere Koalitionsoptionen können wir hieraus allerdings nicht ablesen, bis auf die sehr häufige Nennung der derzeitigen Koalition aus CDU und SPD.

Sentimentanalyse

Ich habe auch versucht, die Daten mit Sentimentanalyse auszuwerten. Dies scheint bei Zeitungsartikeln allerdings wenig erfolgreich. Die Programme zur Sentimentanalyse sind eher auf einfache Sätze und klare Begriffe optimiert. Die Auswertung von Berichterstattung in den Medien ist mit ihnen eher schwierig.

In den ausgewerteten Medien kommt es vielmehr auf den Gesamtkontext an als auf klare Adjektive - eine Ausnahme könnte die Bild-Zeitung sein, aber von dieser standen keine Texte zur Verfügung.

Ausländische Zeitungen

Da ich in meinen Daten auch den Standard aus Österreich habe und mehrere kroatische Zeitungen (Jutarnji, Vecernji, Nacional), habe ich mir auch dort die Berichterstattung angesehen. Im Standard wird in der Sektion Ausland durchaus über die deutsche Bundestagswahl berichtet - gemessen an der Nennung von Parteien im Titel. In den kroatischen Zeitung habe ich keine nennenswerte Anzahl an Artikeln mit deutschen Parteinamen im Titel gefunden.

Daraus können wir zum Abschluss noch eine recht interessante Unterscheidung zwischen dem Ausland erkennen. Österreich scheint die deutsche Wahl sehr stark zu verfolgen, in Kroatien ist sie eher egal. Wenn ich heute den Standard öffne, sehe ich in der Tat die beiden Artikel “Bundestagswahl in Deutschland: Aufbruch ins Ungewisse” und “AfD vor dem Einzug: Neue Zeitrechnung für den deutschen Bundestag”, während Nacional über kroatische Innenpolitik berichtet. Erst wenn man in die Rubrik “Weltweite Nachrichten” wechselt, sieht man einen Artikel “Deutschland: Wahl hat begonnen, es wird ein Sieg von Angela Merkel erwartet”, welcher im Gegensatz zum Standard keinerlei Parteien nennt und wesentlich distanzierter klingt (umgekehrt in den deutschen Medien ist es jedoch auch nicht anders).

I do not maintain a comments section. If you have any questions or comments regarding my posts, please do not hesitate to send me an e-mail to stefan@eliteinformatiker.de.