BiblioCON 2024/Open Data Auffinden SLUB

Auffinden von Open Data in Textpublikationen – Ein systematischer Vergleich von Klassifikationsalgorithmen

Vortrag

Methode

Abstract für den Call For Papers

Termin

BiblioCON 2024, 04.–07.06.2024

Autorinnen

Katharina Zinke ORCID: (0000-0003-2595-2668)

Abstract

Ein wichtiger Pfeiler nachvollziehbarer und reproduzierbarer Forschung ist der offene Zugang zu Forschungsergebnissen. Dazu gehört, zunehmend festgelegt in Projektförderbedingungen, die Veröffentlichung der im Forschungsprozess entstandenen Daten als Open Data. Die Publikation von Daten wird momentan, je nach Disziplin, sehr unterschiedlich praktiziert. Dies erschwert eine systematische Erfassung von Open Data, etwa über persistente Identifikatoren bzw. Relationen zwischen Text- und Datenpublikationen.

Ein an der Charité Berlin entwickelter Text Mining Algorithmus zur automatisierten Identifikation von Open Data in Textpublikationen (ODDPub) bietet dafür eine mögliche Lösung. Das Vorgehen wurde hier anhand einer Stichprobe von Publikationen der TU bzw. des Universitätsklinikums Dresden erprobt und systematisch mit den Klassifikationsergebnissen des DataSeer Natural Language Processing Modells (extrahiert aus dem PLOS Open Science Indicators Datensatz) und einer manuellen Kodierung verglichen.

Die beiden automatisierten Klassifikationen stimmen zu einem großen Teil überein und haben vergleichbare F1-Scores, eine Metrik zur Bewertung von Klassifikationsmodellen. Allerdings hat ODDPub eine etwas höhere Precision als DataSeer, während DataSeer einen höheren Recall aufweist. D.h. DataSeer findet zwar fast alle tatsächlichen Datenpublikationen, identifiziert dafür aber einige fälschlicherweise als Open Data, während ODDPub weniger falsch klassifiziert, dafür aber einige tatsächlich Open Data enthaltende Publikationen verpasst. Abweichungen von der manuellen Kodierung fanden sich für beide Algorithmen u.a. für die Identifikation von Datennachnutzung oder bei fehlerhaften Verlinkungen.

Im Vortrag stelle ich das Vorgehen und die Ergebnisse der Untersuchung dar, wäge die Nutzungsmöglichkeiten der beiden Verfahren gegeneinander ab und geben einen Ausblick auf mögliche Weiterentwicklungsszenarien zum standardisierten Auffinden veröffentlichter Forschungsdaten.

Literatur

Public Library of Science. (2022). PLOS Open Science Indicators (Version 2) [Data set]. Figshare. https://doi.org/10.6084/m9.figshare.21687686.v2
Riedel, N., Kip, M., & Bobrov, E. (2020). ODDPub –a Text-Mining Algorithm to Detect Data Sharing in Biomedical Publications. Data Science Journal, 19(1), 42. https://doi.org/10.5334/dsj-2020-042