Inhalte aus "Top 10 Fair Data & Software Things"

Bearbeiten
Bearbeiten
  • In der historischen Forschung bestehen Forschungsdaten meist aus Datenbanken (Spreadsheets, relationale Datenbanken), Textkorpora, Bildern, Interviews, Tonaufnahmen oder Videomaterialien
  • Damit Datensätze gefunden werden können, müssen die Datensätze mit dazugehörigen Metadaten in einem Repository hinterlegt werden, welche persistente Identifikationen zuweist

Datenrepositories

Bearbeiten
  • Folgende Repositories akzeptieren Datensätze aus dem historischen Bereich: DANS EASY, Figshare, Zenodo, B2SHARE
  • Repositories, die die CoreTrustSeal-Kriterien erfüllen, gewährleisten eine dauerhafte Auffindbarkeit der Daten
  • Frage: Was versteht man unter dem CoreTrustSeal-Kriterium genau?

Metadaten

Bearbeiten
  • Metadaten sind Daten über Daten
  • Die meisten Repositories erfordern einen minimalen Satz an Metadaten (wie Namen, Titel und Jahr der Erstellung)
  • Metadaten werden mit einem festen Schema erfasst (vorgegeben vom Repository)

Persistenter Identifikator

Bearbeiten
  • Datensätze müssen auf persistente Identifikatoren (PID) zuweisen, damit Online Verweise auch in Zukunft verfügbar sind
  • PID als bestimmter Typ einer URI
  • Akademische Zeitschriften arbeiten meistens mit DOIs
  • DOI: weltweit einziger Identifikator, der dauerhaften Zugriff ermöglicht
  • DOI seit 2012 ISO-Standard
  • PIDs können auch für Personen erstellt werden
  • Open Researcher and Contributor Identifier (ORCID): internationals System zur dauerhaften Identifizierung wissenschaftlicher Autoren

Open Data

Bearbeiten
  • FAIR-Grundsätze besagen, dass Daten und Metadaten zugänglich sein sollten (ein Protokoll, welchem Benutzer folgen können, um den Datensatz zu erhalten)
  • Viele Gründe, den Zugriff einzuschränken
  • Daten sind manchmal in einem proprietären Format gespeichert
  • DANS-EASY arbeitet deshalb z.B. mit einer Liste bevorzugter Formate
  • Viele Historiker erfassen Daten in Tabellen
  • Es gibt wichtige Prinzipien beim Arbeiten in Tabellen: konsequente Arbeit, Leere Zellen vermeiden, keine Farben verwenden und einige mehr
  • Wenn ein Datenmodell entwickelt ist, sollte man ein Daten-Wörterbuch anlegen, welches das Modell dokumentiert

Kontrolliertes Vokabular und Ontologie

Bearbeiten
  • Es gibt 5 Ebenen offener Daten (laut Tim Berners-Lee), 5 Sterne können verdient werden
  • 1 Stern: Datensatz wurde veröffentlicht (Bsp. via open license)
  • 2 Stern: Daten als maschinenlesbare Daten (Bsp. durch Zugriff auf Excel Tabelle)
  • 3 Stern: Anstelle von Excel offene Formate wie CSV oder TXT
  • 4 Stern: wenn die Entitäten mittels PID identifiziert werden
  • 5 Stern: wenn die Daten mittels PIDs mit Entities anderer Datensätze verknüpft sind
  • Durch RDF und PIDs können Datensätze noch weiter verbessert werden
  • Historische Forschung konzentrieren sich meistens auf Menschen, Veranstaltungen, Organisationen und weiteres
  • Es gibt Ontologien und gemeinsame Vokabulare, die sich auf solche Entitäten beziehen, wie z.B. The CIDOC Conceptual Reference Model

FAIR Datenmodellierung

Bearbeiten
  • 4. Und 5. Stern: wenn die Daten in einem Format gespeichert sind, in dem die Themen, Eigenschaften etc. mit URIs identifiziert werden
  • Daten also mit RDF aufzeichnen
  • RDF ermöglicht es den Inhalt einer Datenbank über das Web zu veröffentlichen
  • Einfaches Datenmodell, das davon ausgeht, dass alle Aussagen auf ein Subjekt, Prädikat und Objekt gekürzt werden können (auch Triple genannt)
  • FAIR Datenmodell ist eine grafische Darstellung an Daten
  • Bestehende Datensätze können mit der FAIRifier-Software in RDF konvertiert werden

Lizenzierung

Bearbeiten
  • Lizenz beschreibt die Bedingungen, unter denen die Daten verwendbar sind
  • Copyright-Experte kann bei der Wahl der richtigen Lizenz helfen

Daten Zitation

Bearbeiten
  • Wenn Daten anderer Ersteller verwendet werden, müssen diese zitiert werden
  • Datenzitate erhalten i.d.R. Autor, Jahr, Titel, Verlag, persistente Kennung

Policies

Bearbeiten
  • Richtlinien können von Verlagen, Geldgeber und Universitäten ausgehen
  • Richtlinien sind auf der jeweiligen Webseite aufgelistet
  • FAIRsharing ist ein Repository für Standards, Datenbanken, Richtlinien

Aufgaben

Bearbeiten

1. Aufgabe

Bearbeiten

Study the data set that can be found via https://doi.org/10.17026/dans-zw3-fkxb. How can the dataset be downloaded? Which formats are available?

Datensatz: Anglo-African trade, 1699 - 1808 Folgende Informationen sind enthalten:

  • Zitation
  • Metadaten: Titel, Ersteller, PID (URN und DOI), Beschreibung, Erscheinungsjahr

Beschreibung des Datensatzes:

  • Zahlen über den Handel zwischen England und Afrika im Zeitraum 1699 - 1808
  • verschiedene Handelsströme werden aufgeführt
  • Datensatz wurde zu Forschungszwecken erstellt
  • der ursprüngliche Datensammler war M. Johnson, nach seinem Tod ging die Dokumentation an das NHDA

Download

  • Download der Beschreibung als CSV oder XML möglich
  • die hinterlegten Dateien können als .txt Datei heruntergeladen werden, dafür ist ein Login jedoch erforderlich

2. Aufgabe

Bearbeiten

1. Start by going to FAIRsharing 2. Click on the blue “Policies” button at the top 3. In the left side menu under “Subjects”, click on “show more” and select “Humanities”. 4. Scroll down to the Taylor and Francis Data Policy 5. Which databases and standards are mentioned in this policy? 6. Go to the specific policy for the “European Review of History” journal. 7. Does it differ from the general Taylor and Francis policy? 8. Try to find the data policy for your favorite journal.


 

Publizieren in allen Bereichen der Geistes-, Sozial-, Verhaltens-, Natur-, Technik- und Medizin.

Databases:

  • 4TU.Centre for Research Data
  • Code Ocean
  • Dryad
  • FAIRsharing
  • figshare
  • Harvard Dataverse
  • Mendeley Data
  • Open Science Framework
  • re3data
  • Research Data Australia
  • Zenodo

Policies:

  • Digital Object Identifier
  • The FAIR Principles

Die “European Review of History” Zeitschrift wendet die Taylor & Francis Basic Data Sharing Policy an.