Nachnutzung von strukturierten Daten aus Wikidata für bibliometrische Analysen – Erstellung einer generischen Python Library und Durchführung eines Workshops

Projektbeschreibung

Bibliographische Analysen stützen sich in der Regel auf rein bibliothekarische Beschreibungsformate ohne die sozialen Hintergründe für Zitationsverhalten, Ko-Autorenschaft oder Publikationsverhalten, miteinbeziehen zu können.

Die Forschungen der Wissenschaftsgeschichte haben dagegen immer wieder die sozialen Aspekte von Forschungsprozessen herausgestellt. Ludwik Fleck beschreibt etwa die sozialen Kollektive und Sprachvereinbarungen, in denen Erkenntnis entsteht und in denen sich habituelle Prozesse meist unreflektiert etablieren. Der Sozialphilosoph Bruno Latour dehnt dieses Gedanken soweit aus, die Grenzen zwischen dem Labor und der Gesellschaft permeabel zu lesen. Das Eindringen sozialer Regeln in die vermeintlich „neutrale Wissenschaft“ und „vernünftige Erkenntnis“ wird auch von den Sozialwissenschaften thematisiert. Aus den breit abgesicherten Forschungen der letzten Jahrzehnte müssen wir mit hoher Wahrscheinlichkeit davon ausgehen, dass Aspekte wie Gender, soziale Herkunft, Ethnie und vieles andere die (Natur-)Wissenschaft und damit auch das wissenschaftliche Publikationsverhalten prägen. Dies ist grundlegend für bibliometrische Analysen, diese kann solche Aspekte jedoch derzeit nicht oder nur rudimentär berücksichtigen.

Dabei ist eine neutrale Repräsentation von Wissen und Publikationen natürlich prinzipiell anzustreben, weil sie einen unvoreingenommenen Blick auf Erkenntnis ermöglicht. Diese Maßgabe kann jedoch nur für disziplinäre Forschungen gelten. Meta-Forschung, die das Verhalten von Wissenschaftler*innen verstehen will, kann dagegen nur gelingen, wenn die vermeintlich neutralen wissenschaftlichen Prozesse explizit gemacht werden.

In welcher Weise soziale Aspekte zur Bedingung oder zum Hemmschuh für erfolgreiches Arbeiten in der Forschung werden, damit beschäftigen wir uns im Projekt Q-Aktiv. Q-Aktiv legt dabei den Fokus auf Konvergenzprozesse zwischen Forschenden und wissenschaftlichen Einrichtungen, die sich thematisch annähern und neue Idee vorantreiben. Ein Schwerpunkt von Q-Aktiv liegt dabei auf der Implementierung von Innovationen in Wissenschaft, Technik und Gesellschaft als neue Konzepte oder Produkte. Gegenstand der Untersuchung im Projekt sind Publikationsdatenbanken der Lebenswissenschaften und Wirtschaftswissenschaften, die mehr als 50 Mio. Metadaten und 10 Mio. Volltexte in Artikeln und Patentschriften umfassen.

Grundlegend für die Erschließung der sozialen Hintergründe der Autor*innen, die in den beschriebenen Wissenschaftsdynamiken die entscheidenden Akteure darstellen, ist die Anreicherung von Publikationsdaten. Diese möchte ich auf Basis von Wikidata realisieren und habe dazu auch schon einige Vorarbeiten geleistet. Die Unterstützung des Fellowship Freies-Wissen würde mir ermöglichen, eine Library für die Programmiersprache Python, die diese Funktionen ermöglichen kann, generisch anzulegen und nicht nur auf unsere Anforderungen in Q-Aktiv auszurichten. Gerne würde ich mit Unterstützung des Fellowships mit anderen Wisenschaftler*innen durch eine Workshop, der Open Science-Themen verhandelt, in Kontakt treten sowie der Open Science-Community selbst meine Library vorstellen, um sie auf Grundlage diese Auseinandersetzungen zu verbessern und auszuweiten.

Nachtrag (Januar 2020): Die Veranstaltung wird als Wikicite Satellite 2020 vom 6.-8. Mai in Köln stattfinden.

Autor/in

Name: Dr. Eva Seidlmayer 0000-0001-7258-0532
Institution: ZB MED Köln
Kontakt: seidlmayer@zbmed.de
Projekt-Repositorium: https://github.com/foerstner-lab/TIP-lib
Blog: On the edge of the data knife: https://dualusedata.hypotheses.org/
Wikicite Satellite-Event-Website:https://www.wikidata.org/wiki/Wikidata:WikiCite_Gathering_2020

Datenmanagementplan

Hier entsteht ein Datenmanagementplan für das Projekt "Nachnutzung von strukturierten Daten aus Wikidata für bibliometrische Analysen".

Projektberichte

Zwischenbericht (Stand 15.Januar 2019)
Abschlussbericht (Stand 31.Mai 2020)

Zugriff und Nutzung

Die im Projekt entstehende Python Library soll jeder*m Interessierten zugänglich sein.

Datenschutz

Im Projekt werden ausschließlich Daten anderer Datenquellen zusammengeführt, keine neuen erzeugt. Die Berechtigung zur Nachnutzung der Datenquellen wird im Vorfeld sichergestellt.

Datensicherung und Backups

Alle Inhalte werden auf GitHub abgelegt (https://github.com/foerstner-lab/TIP-lib) und sind auf verschiedenen Servern gespiegelt.

Archivierung, Datenaustausch und Datenpublikation

Die Inhalte werden auf https://github.com/foerstner-lab/TIP-lib veröffentlicht und dürfen gerne weiterentwickelt werden.

Verantwortlichkeiten und Pflichten

Die Verantwortlichkeiten liegen bei der Projekt-Durchführenden.

Kosten und Ressourcen

In der Umsetzung des Datenmanagementplan werden keine Kosten entstehen.

Wikiversity:Wikiversity:Fellow-Programm Freies Wissen/Einreichungen/Nachnutzung von strukturierten Daten aus Wikidata für bibliometrische Analysen