Wikiversity:Fellow-Programm Freies Wissen/Einreichungen/Probabilistisches generatives Modell zur Analyse von Kollaboration in Texten

Probabilistisches generatives Modell zur Analyse von Kollaboration in Texten Bearbeiten

Projektbeschreibung Bearbeiten

Relevanz Bearbeiten

Open Science bedeutet, seine Forschungsarbeit für die Community zu öffnen und Interaktion und Kollaboration zu ermutigen. Deshalb ist kollaboratives Arbeiten, beispielsweise gemeinsame Autorschaft von wissenschaftlichen Texten ein so wichtiger Aspekt von Open Science. Als Paradebeispiel aufseiten der Wissensverbreitung steht Wikipedia, die die Frage nach der (Co-) Autorschaft im enzyklopädischen Kontext in den letzten Jahren neu verhandelt hat. Als Beispiel für kollaborative Forschung ist die digitale Edition Berliner Intellektuelle[1] zu nennen, die editorische Kodierungen, Eingriffe und Erschließungsprozesse öffentlich macht. Nicht nur die editorischen Entscheidungen, auch die Eingriffe anderer Personen in die Texte sind kodiert und ermöglichen Einsichten in die Versionsgeschichte der Texte. Die Inhalte dieser Edition sind unter einer Creative Commons Lizenz bereitgestellt. In beiden Projekten wird deutlich, dass Texte nicht als unumstößliches Original existieren, sondern dass jede Textdarstellung immer eine Konstruktion des Materials ist. Die Ursachen für die Eingriffe in die Texte können einerseits Aufschluss über die Geisteshaltung der Person geben, andererseits über Umstände und Zeit der Änderung.

Fragestellung Bearbeiten

Im Rahmen dieser Forschung wird mithilfe von Methoden des Maschinellen Lernens ein Modell entwickelt, das automatisiert die jeweiligen Gründe für Eingriffe in Texte zuordnet. Die Eingriffe können beliebige lokale Kombinationen aus Streichungen, Ergänzungen und Ersetzungen sein, die sich in verschiedene Kategorien teilen. Alle Eingriffe haben eine syntaktische und eine semantische Komponente, allerdings sind diese jeweils unterschiedlich stark im Fokus. Dabei haben längere Streichungen oder Ergänzungen immer einen eher inhaltlichen Aspekt.

Methode Bearbeiten

Das entwickelte Modell (modLDA) konzentriert sich auf die Beweggründe von inhaltlichen Eingriffen und basiert deshalb auf dem weit verbreiteten Topic Model Latent Dirichlet Allocation[2]. LDA kann dafür verwendet werden, Themen von Dokumenten als Verteilungen über Worte zu lernen. Für den hier problematisierten Anwendungsfall wird das Modell um weitere latente Variablen erweitert, die den Zusammenhang zwischen Themen und Modifikationsgründen darstellen. Da es sich um ein generatives Modell handelt, kann es nicht nur zur Inferenz, sondern auch zur Erstellung von synthetischen Daten verwendet werden. Die latenten Variablen des Modells lassen sich mithilfe von Variational Inference approximieren. Sowohl um inhaltliche Änderungen von Wikipedia-Artikeln, als auch von Dokumenten in der Edition Berliner Intellektuelle zu analysieren, müssen in vorbereitenden Schritten die Änderungen, die tendenziell syntaktischer Natur sind, aussortiert werden. Dabei helfen Heuristiken, basierend auf Part-of-Speech Tagging und Levenshtein Distanzen[3] zwischen den beobachteten Versionen.

Anwendung Bearbeiten

Ziel des Forschungsvorhabens ist es, modLDA als Analysetool zu entwickeln und der Öffentlichkeit zur Verfügung zu stellen. Um die Funktionsweise zu zeigen, soll die Methode auf Texten der Wikipedia, sowie auf der Edition Berliner Intellektuelle angewendet werden. Obwohl in beiden Fällen explorativ die Beweggründe für die Eingriffe in die Texte erkannt werden sollen, zeigen diese beiden Datensätze durch ihre Unterschiedlichkeit auch die Vielfalt der Anwendungsmöglichkeiten von modLDA. Bezüglich der Edition Berliner Intellektuelle liegt der interpretatorische Schwerpunkt auf dem Verständnis von Privatheit im intellektuellen Berlin der damaligen Zeit, nämlich anhand der Gründe, aus denen bestimmte Passagen aus den Briefen und Texten gestrichen wurden, um sie für eine Veröffentlichung vorzubereiten. Bei der Analyse von Texten der Wikipedia ist die Frage nach Privatheit vermutlich zweitrangig, da die Texte anders als bei vielen Texten der Edition Berliner Intellektuelle in ihrer Geschichte nicht die Adressatengruppe ändern. modLDA könnte beispielsweise als automatische Analysemethode von Änderungen eingesetzt werden und, ähnlich wie Cluebot NG[4], bei der Erkennung von Vandalismus helfen. Die Ergebnisse gehen bei modLDA allerdings noch weiter: Gerade das Wissen um die Gründe für Änderungen, die nicht als Vandalismus betrachtet und sofort rückgängig gemacht werden, verspricht zum Verständnis der Kollaborationsmechanismen beizutragen. Zeitlich eingebettet, können so beispielsweise Konsensverschiebungen bestimmter Themen aufgedeckt werden. Die Ergebnisse von der Anwendung soll in einem Open-Access Journal eingereicht werden.

Bezug zu Open Science Bearbeiten

Das Forschungsvorhaben hat aus genannten Gründen inhaltlich Relevanz für Open Science, weil es sich mit der Analyse von Kollaborationsmechanismen in der Wissenschaft beschäftigt. Neben den beiden genannten Anwendungsbeispielen sind viele weitere denkbar, nicht zuletzt die Analyse von Kollaboration in Source Code. Abgesehen von der inhaltlichen Motivation, sollen bei der Durchführung der Forschung ebenfalls Methoden im Sinne von Open Science verwendet werden. Ziel des Forschungsvorhabens ist es demnach, ein Paket in der Programmiersprache Python zu veröffentlichen, mit dem Interessenten die Methode auf anderen Datensätzen anwenden können. Das Paket soll über den Python Package Index (PyPI) zu finden und zu installieren sein und über GitHub.com gewartet werden. Da viele potenzielle Anwendungsfelder in traditionell geisteswissenschaftlichen Disziplinen liegen, ist es umso wichtiger die technischen Einstiegshürden gering zu halten. Aus diesem Grund sollen auf GitHub Pages ausführliche Installationsanleitungen und Beispiele veröffentlicht werden.


Autor/in Bearbeiten

  • Name: David Lassner
  • Institution: Technische Universität Berlin
  • Kontakt: davidlassner@gmail.com

Literatur Bearbeiten

  1. Anne Baillot (ed.), "Briefe und Texte aus dem intellektuellen Berlin um 1800". Berlin: Humboldt-Universität zu Berlin. http://www.berliner-intellektuelle.eu/ Konsultieren Sie bitte die Homepage für die aktuelle Version.
  2. (LDA) D. Blei, A. Ng, and M. Jordan. Latent Dirichlet allocation. Journal of Machine Learning Research, 3:993–1022, January 2003. [Gekürzte version ist bei NIPS 2002 erschienen].
  3. Levenshtein, V. I. (1966). Binary codes capable of correcting deletions, insertions and reversals. In Soviet physics doklady, Volume 10, pp. 707.
  4. Cluebot NG ist ein Wikipedia-Bot, der unterschiedliche Methoden des Maschinellen Lernens vereint, um Seiten, die durch Vandalismus verunstaltet werden, automatisiert wiederherzustellen. Der Sourcecode wird auf folgender Seite gewartet: https://github.com/DamianZaremba/cluebotng/