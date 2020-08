Quellen:

„Open Discourse“, Verfassungsblog.de, Deutscher Bundestag, WHO, Der Spiegel 27/2003, Crashkurs IfSG (Anika Klafki), Johns-Hopkins-University, Risikoanalyse im Bevölkerungsschutz 2012 des RKI, Schriftliche Frage 15/5993, Antwort der Bundesregierung auf Schriftliche Anfrage 18/3377, Bundestagsrede Andrew Ullmann 12.02.2020, Wartena (2019): A Probabilistic Morphology Model for German Lemmatization



Autoren:

Robert Meyer, Simon Haas



Redaktion:

Jennifer Werner, Karsten Kaminski



Im Auftrag des ZDF:



Redaktion:

Ella Böhm, Sophie Gülzow



Design:

Josephine Gudakow,

Mischa Biekehör,

Jens Albrecht



Woher stammen die Daten?

Die ZDFheute-Analyse beruht auf Daten des Berliner Unternehmens Limebit, das sich mit Machine Learning und Softwareentwicklung beschäftigt. In einem Nebenprojekt namens „Open Discourse“ hat Limebit sämtliche Plenarprotokolle seit 1949 maschinenlesbar gemacht und ZDFheute zunächst exklusiv zur Verfügung gestellt. Limebit will die Datenbank künftig allen Bürgerinnen und Bürger im Netz zur Verfügung stellen.

Wie wurde die Datenbank durchsucht?

Um herauszufinden, wann Pandemien eine Rolle im Bundestag gespielt haben, wurden die Redebeiträge nach Buchstabenkombinationen durchsucht, die „Pandemie“ oder „pandem“ enthalten. Um die wichtigsten Themen während der Corona-Krise zu identifizieren, wurden in einem ersten Schritt alle Redebeiträge aus dem Jahr 2020 gesucht, in denen die Worte „Corona“ oder „Covid“ vorkamen. Zudem wurden für den nachfolgenden Analyseschritt alle Hauptwörter aus sämtlichen Redebeiträgen herausgefiltert und in ihre Normalform gebracht. Die Mehrzahl „Kinder“ wird zum Beispiel zur Einzahl „Kind“; so lassen sich Worte einfacher zusammenfassen.

Wie wurde die Relevanz eines Wortes berechnet?

Grundsätzlich gilt: Je häufiger ein Hauptwort in einem Monat vorkommt, desto wichtiger ist das Thema während der Debatten. Diese Zahl wurde ins Verhältnis mit der Zahl aller vorkommenden Hauptwörter gesetzt und mit 1.000 multipliziert. („Das Hauptwort kam x mal pro 1.000 gesprochenen Worten vor.“) Allerdings führt diese Methode dazu, dass Wörter wie „Herr“ oder „Antrag“ ganz oben im Ranking der meistgenannten Worte auftauchen – weil sie in jeder Debatte, unabhängig vom Thema, eine Rolle spielen. Deshalb wurde der Anteil eines jeden Wortes zusätzlich noch ins Verhältnis zu allen anderen Beiträgen gesetzt. Also: Wie wichtig ist zum Beispiel ein Wort für den Monat April im Vergleich zu allen anderen Monaten? So kam etwa das Wort „Krankenhaus“ im April tendenziell häufiger als im Februar, März, Mai und Juni vor.

Welche Fehler können in der Analyse auftauchen?

Die Analyse einer Datenbank mit mehr als 400.000 Redebeiträgen von Politikerinnen und Politikern und nochmal genauso vielen Aussagen des Bundestagspräsidiums ist durchaus fehleranfällig. Eine solch große Datenbank kann nicht komplett von Hand gegengecheckt werden. Deshalb wurde während der Analyse immer wieder stichprobenhaft überprüft, ob bestimmte Eckdaten der Datenbank stimmen. Zudem wurden regelmäßig die originalen Protokolle aus der Bundestags-Mediathek zur Überprüfung herangezogen. Kleinere Fehler tauchen auch in der Datenbank ab und zu auf – zum Beispiel ein fehlendes Leerzeichen, weshalb ein Hauptwort nicht korrekt identifiziert werden konnte. Dabei handelt es sich allerdings um stichprobenhaft geprüfte Einzelfälle, die die Analyseergebnisse nicht verzerrt haben.