Der Journalismus von Morgen

Das Projekt Overview von Associated Press soll helfen, Dokumentenberge auszuwerten. Software wie diese wird in Newsrooms bisher kaum verwendet. Entwickler-Journalisten wollen diese Kluft schließen.

von David Pachali

Rund 5.000 Seiten, die ausgedruckt einen Papierstapel von knapp einem Meter Höhe ergeben würden – etwa drei Wochen müsste ein Journalist an den Berichten des US-Außenministeriums über den Einsatz von Sicherheitsfirmen im Irak lesen, um die Papiere durchzuarbeiten. Anhand solcher Dokumentenberge demonstriert Jonathan Stray, warum der Journalismus neue Software benötige. Stray – Journalist, Informatiker und Fellow am Tow Center für digitalen Journalismus der Columbia-Universität – leitet das Projekt Overview von AP.

Füttert man das gleichnamige Programm mit einem solchen Stapel, untersucht es den Inhalt, sortiert die Dokumente und erzeugt eine Baumstruktur von Ordnern und Unterordnern anhand von Schlagworten. Hat es die Dokumente sortiert, kann der Nutzer sich von Schlagwort zu Schlagwort hangeln und die Dokumente in Augenschein nehmen. Ein Ordner kann etwa das Schlagwort »Wahlen« tragen, der nächste »Detonation« – je nachdem, welche markanten Begriffe in den Dokumenten häufig vorkommen.

Die Idee für »Overview« entstand während der journalistischen Arbeit selbst: Stray durchforstete die von Wikileaks veröffentlichten »Iraq war logs« – 391.832 Militärdokumente zum Irakkrieg, ein noch größerer Berg als die Berichte des Außenministeriums. Wo sollte er anfangen?

Stray programmierte eine Visualisierung, die die Dokumente als Punkte zeigte – solche mit ähnlichen Inhalten verbanden sich zu Clustern. So fanden sich in den Dokumenten Muster, darunter einige hundert Erwähnungen von Vorfällen mit Tanklastzügen. Der Vergleich mit dem AP-Archiv ergab: Nur die Hälfte war dort dokumentiert. Stray drängte sich die Frage auf: »Hören wir nur von den Extremfällen – oder läuft es jeden Tag wie in den Meldungen?«

Nur schöne Theorie?

Drei Wochen arbeitete Stray an der Visualisierung – ein Aufwand, den sich kaum eine Redaktion leisten kann. Eben das soll das »Overview«-Projekt abkürzen und Analyse-Werkzeuge anbieten. Unter overviewproject.org steht das von der Knight Foundation unterstützte Projekt als kostenlose Webanwendung bereit. Dass hinter solcher Auswertungssoftware mathematische Modelle mit so klingenden Namen wie »multinomiale Dirichlet-Verteilung« oder die »inverse Dokumentenfrequenz nach TF-IDF-Gewichtung« stecken, erwähnt Stray beiläufig. Entsprechende Algorithmen kommen in vielen Bereichen zum Einsatz – bei Suchmaschinen oder Buch-Empfehlungen etwa. Für Stray gehören sie aber eben auch zum Werkzeugkasten des »Computational Journalism«, der nach seinem Verständnis vier Dinge leistet: Rechnergestützt nach möglichen Geschichten schürfen, die Informationsflut bändigen, eine Geschichte durch Visualisierungen erzählen, die Verbreitung von Informationen nachvollziehen.

»The revolution will be comma-delimited« steht auf dem Aufkleber seines Laptops; die Revolution wird kommagetrennt sein. Entwickler-Journalisten wie Stray lieben das Dateiformat »kommagetrennte Werte«, das Austausch und Analyse durch klar strukturierte Daten einfach macht und mit Excel ebenso wie mit Spezialanwendungen kompatibel ist. Doch solch »saubere« Daten sind eher selten als häufig anzutreffen. So fördert eine Informationsfreiheitsanfrage meist ausgedruckte und wieder eingescannte E-Mails zutage.

Software-gestützter Journalismus: eine schöne, aber graue Theorie? »Es gibt eine riesige Lücke zwischen dem, was im Labor des Journalismus möglich ist, und dem, was im Newsroom auch umsetzbar ist«, räumt Stray ein. Auch die Technikgemeinde habe daran Anteil: Sie kümmere sich zu wenig darum, ihre schönen Entwicklungen auch praktisch einsatzfähig zu bekommen.

Keine Digital Natives

Dass Software speziell für den journalistischen Einsatz entwickelt wird, ist ohnehin ein Sonderfall. Vorangetrieben wird die rechnergestützte Auswertung nicht von Medienhäusern, sondern in anderen Bereichen. Zum Beispiel in der Medizin oder der Werbung, aber auch in den IT-Abteilungen von Geheimdiensten, wo die Datenberge am größten sind. Sind die Programme frei verwendbar und quelloffen, können sie für journa­listische Zwecke angepasst und weiterentwickelt werden, merkt Stray an.

Aber nicht jeder Journalist müsse deshalb programmieren lernen, meint Michael Kreil, Entwickler bei der Datenagentur OpenDataCity. »Der beste Ansatz liegt in der Zusammenarbeit.« Kleine Teams von Journalisten und Entwicklern hält er für das beste Modell. Medienhäuser müssten sich daher nicht nur fragen: Welche Software brauchen wir? Sondern auch: Welche Software-Entwickler brauchen wir? Für Jonathan Stray ist das leichter gesagt als getan. Hochspezialisierte Datenarbeiter zu finden, die auch journalistisch versiert sind, gleiche »der Suche nach dem Einhorn«.

Wichtig sei ein permanenter Austausch zwischen Journalisten und Entwicklern, der über »Bau mir das!« hinausgeht, sagt auch Annette Leßmöllmann, Professorin für Wissenschaftskommunikation am Karlsruhe-Institut für Technologie. Doch davon sei der Alltag im Newsroom noch weit entfernt. »Man muss erst einmal die Legende von den ›Digital Natives‹ überwinden.« In der Journalistenausbildung an Hochschulen zeige sich: Nach der Einführung in journalistische Arbeitsweisen müsse man mit Grundlagen wie Twitter beginnen; erst Semester später sei dann noch Platz für den schwereren Stoff – wenn überhaupt.

Doch trotz aller neuen Techniken und Programme: Hergebrachte Arbeitsweisen werden durch sie nicht obsolet. Stray, der auch in Hongkong lehrt, erklärt seinen Studenten ebenso: Das Telefon ist eine Datenquelle. Nicht nur, aber gerade in China, wo deutlich weniger Daten offen zugänglich sind, muss man zum Hörer greifen. Auch die Verifizierung nehmen Programme wie »Overview« nicht ab. »Nur weil es Daten sind, sind sie noch nicht wahr. Da gelten immer noch die journalistischen Standards.«

Texte unter Lizenz CC-BY-SA.

Kommentar hinterlassen

Ihre E-Mail-Adresse wird nicht veröffentlicht. Pflichtfelder sind mit einem * markiert.