Open Community Approach/Offenes Maschinelles Lernen

Einleitung

Bearbeiten

Diese Seite kann als Wiki2Reveal Folien angezeigt werden. Einzelne Abschnitte werden als Folien betrachtet und Änderungen an den Folien wirken sich sofort auf den Inhalt der Folien aus.

Zielsetzung

Bearbeiten

Diese Lernressource in der Wikiversity hat das Ziel, offene Prinzipien, die aus dem Bereichen

stammen.

Zielgruppe

Bearbeiten

Die Zielgruppe der Lernressource sind Studierende, die sich maschinellem Lernen im Kontext der eigenen Disziplin beschäftigen.

Reproduzierbarkeit

Bearbeiten

Bei der Reproduzierbarkeit von maschinellem Lernen betrachtet man die Quellen, die dafür notwendig sind, um ein existierendes lernfähiges System nach Möglichkeit reproduzieren zu können (Digital Public Good[1]). Dazu gehören die

  • Algorithmen, die das Verhalten des lernfähigen Systems definiert,
  • Trainingsdaten, die ebenfalls das Verhalten des Systems bestimmen und verändern und
  • Maschinenzustandsdaten, die den Zustand   des lernfähigen System zum Zeitpunkt   beschreibt.

Reproduzierbarkeit für Algorithmen

Bearbeiten

Lernalgorithmen definieren, wie sich der Maschinenzustand in Abhängigkeit von der Eingabedaten bzw. Trainingsdaten verändert. Für offenes maschinelles Lernen müssen diese als Open-Source-Code zur Verfügung stehen, damit den Code nicht nur genutzt, sondern auch von der wissenschaftlichen Gemeinschaft überprüft und verbessert werden kann. Als einführendes Beispiel kann das Gradientenabstiegsverfahren nennen, das für Lernalgorithmus von Backpropagation-Netzen zur Fehlerminimierung verwendet wird.

Traingsdaten als Teil der Programmierung

Bearbeiten

Zwei lernfähige Systeme   und   können z.B. das gleiche neuronale künstliche neuronale Netz für das maschinelle Lernen mit dem gleichen Startzustand   verwenden, aber es mit komplett anderen Trainingsdatensätzen "füttern" und damit zu einem späteren Zeitpunkt   ein komplett unterschiedliches Verhalten zeigen. Beim einem offenen reprodzierbaren System sind die verwendeten Trainingsdaten offen nach dem FAIR-Data-Prinzip zugänglich.

Beispiel - Textgenerierung und offenen Lizensierung

Bearbeiten

Wenn man zum Beispiel Textdaten mit einer spezifizischen Creative-Commons-Lizenz für das Maschinelle Lernen als Trainingsdatensatz verwendet, so bestimmt die Lizenz der Trainingsdaten beim offenen maschinellen Lernen (Open ML) auch die Lizenz des generierten Textproduktes.

Versionierung und Offene Trainingsdatensätze und

Bearbeiten

Trainingsdatensätze können sich durch weitere Datensammlung stetig verändern. Daher macht Sinn für die Trainingsdatensätze analog zum Quellcode Versionierungssysteme einzusetzen, die durch effziente Speichung von Versionen die zeitliche Entwicklung der Trainingsdatensätze reproduzierbar machen.

Aufgaben für Lernende / Studierende

Bearbeiten

Lernaktivitäten konzentrieren sich auf die Rolle von Trainingsdaten für die maschinellen Lernalgorithmen:

  • (Einsteiger:innen ML) Wenn Sie neu zu Maschinelles Lernen (ML) sind, wird empfohlen, mit einer Erkundung des Konzepts und der Grundlagen des maschinellen Lernens zu beginnen.
  • (Überwachtes, unüberwachtes ML) Erläutern Sie die Unterschiede zwischen überwachtem und unüberwachtem maschinellen Lernen und wenden Sie diese auf Texterzeugung mit Trainingsdaten an, die dann neue Textdokumente unter einer offenen Lizenz für die Trainingsdaten an.
  • (Open-Source-Code als Trainingsdaten) Im Kontext von OpenML wurde bereits die Open-Source-Lizensierung von Lernalgorithmen angesprochen. Betrachten Sie nun Assistenzsysteme, die auf maschinellem Lernen beruhen, die Open-Source-Code als Trainingsdaten vewenden. Analysieren Sie die Herausforderung für die Trainingsdaten, damit bei OpenML auch der erzeugte Code im Assistenzsystem von den Nutzer:innen eindeutig einer Lizenz zugeordnet werden kann.
  • (Verkehrmanagement und Maschinelles Lernen) Wenn eine Kommune oder Landkreis in Bezug auf Nachhaltigkeit Verkehrmanagement mit den eigenen anonymsierten Daten umsetzen möchte, kann maschinelles Lernen auf den Nutzer:innendaten aufbauen, um eine Verbesserung der Verkehrsituation zu erzielen. Beschreiben Sie die Möglichkeiten und Herausforderungen für die Umsetzung!
  • (Optimierung von ML für Nachhaltigkeit) Betrachten Sie die Nachhaltigkeitsziele und eine datengetriebene Entscheidungsunterstützung, die machinelles Lernen nutzt, um nachhaltigere Entscheidungen für eine Gemeinschaft zu treffen. Identifizieren Sie ein Nachhaltigkeitsziele, in dessen Domäne Sie sich auskennen. Welche Entscheidungen bedingen die Nachhaltigkeit von bestimmten Prozessen und welche Möglichkeiten gibt prinzipiell, bessere Entscheidungen im Śinne der Nachhaltigkeit zu treffen? Wie kann man die Nachhaltigkeit messen? Wie können diese Messung ggf. in einen überwachten Lernprozess für das maschinelle Lernen einfließen? Welche Lernalgorithmen/Modelle sind geeignet um diese Aufgabe zu erfüllen?

Lernaktivitäten - abgeleitete Resultate - Derivate

Bearbeiten

Um die Lizenzierung von abgeleiteten Resultaten anzugehen, betrachten man in dieser Lernressource offene Lizenzmodelle, die verwendet werden, um den Zugang der Gemeinschaft in einem evolutionären Entwicklungsprozess auch für abgeleitete Produkte (engl. "derivative work") zu gewährleisten. Die Gemeinschaft kann auf die Ressourcen zugreifen, die Ressourcen modifizieren und die Ressourcen für die Gemeinschaft bewahren, zu denen die Menschen vorher in einem evolutionären Prozess beigetragen haben.

  • (Open Data) Was sind die Herausforderungen und Einschränkungen für den Umgang mit offenen Daten, die für Maschinelles Lernen (ML) verwendet werden? Können Benutzer:innen Datensätze in einem öffentlich administrierten digitalen Infrastruktur (Repository) verfügbar machen?
  • (Transparente Lizenzketten) Nehmen Sie an, dass eine Maschine   mit einem ersten Zustand   mit Trainingsdaten trainiert wird   die unter einer bestimmten offenen Lizenz   ausgestellt wird. Die Lizenz   ermöglicht Derivatisierung. Wenn maschinelles Lernen generativ ist, vergeben die Kettenlizenzen dem generierten Text dieselbe Lizenz.
  • (Versionen der Trainingsdatensätze) Trainingsdatensätze können sich im Laufe der Zeit ändern. Daher erhalten die Trainingsdaten   einen Zeitindex haben  , um diese Zeithängigkeit formal kenntlich zu machen.
  • (Multiple Lizenzen in Trainingsdatensätze) Wenn Trainingsdatensätze aus verschiedenen Quellen aggregiert werden, können sich auch unterschiedliche beteiligte Lizenzen ändern (z.B.   bedeutet, dass zum Zeitpunkt   Datensatz   aus Trainingsdaten mit den Lizenzen   und   aggregiert wurde.
  • (Lernalgorithmus) Der verwendete Lernalgorithmus   definiert, wie sich der Maschinenzustand je nach Trainingsdaten entwickelt. Mit einem diskreten iterativen Schritt von   bis   und den Trainingsdaten   zum Zeitpunkt    . Dies bedeutet, dass der Lernalgorithmus   den aktuellen Maschinenzustand   zusammen mit den Trainingsdaten   zum neuen Maschinenzustand   verändert. Der nächste Lernschritt   erzeugt dann induktiv den nächsten Maschinenzustand  . Wir können   definieren, was bedeutet, dass der Maschinenzustand unverändert bleibt, wenn keine Trainingsdaten bereitgestellt werden.
  • (Datenquellen, experimentelles Design, Metadaten) Für wissenschaftliche Zwecke ist es wichtig, dass geklärt werden kann, wer die Daten gesammelt hat und wie das experimentelle Design für die Datenerhebung gewählt worden war. Identifizieren und benennen Sie die Anforderungen für eine Datenerhebung und die damit verbundenen wissenschaftlichen Standards. Diskutieren Sie die Ähnlichkeiten und Unterschiede im Kontext von Trainingsdaten für das maschinelle Lernen. Nun nehmen wir an, dass auch Herkunft, durchführende Institution (Wissenschaftler:innen) und das experimentelle Design als Metadaten für den Trainingsdatensatz zur Verfügung stehen. Welche andere Metadaten sind für Sie relevant, um die Qualität der Daten zu bewerten, die für das Training im Kontext von Maschinellem Lernen verwendet wird?
  • (Transparenz für trainierte Modelle) Sollten Trainingsdaten   aufgrund von Datenschutzbestimmungen (z.B. für medizinische Daten) nicht offen zur Verfügung stehen, könnten die detaillierten Lizenzinformationen mit Metadaten zusammen mit den Informationen zur wissenschaftlichen Einrichtung, die das Modell trainiert hat, zu einer Bewertung eines Maschinenzustands   zum Zeitpunkt   beitragen.
  • (Machinenzustände) Wenn wir die obigen Überlegungen zusammenfassen, können wir einen Verweis auf den Maschinenzustand   erstellen, wobei die Maschine mit dem Lernalgorithmus   mit den Trainingsdaten   trainiert wurde. Zur Zeit   nutzte der maschinelle Lernprozess die in der Liste   angegebenen Lizenzen. Ergänzt werden diese Informationen durch weitere optionale Metadaten (für Reproduzierbarkeit). Die Ein-Ausgabepaare   definieren, dass   bei der Eingabe von   mit   die Ausgabe   generiert. So definiert das Tupel  , wie  , mit   und den beteiligten Lizenzen   mit den Metadaten zu   generiert wurde. Da es bei dem Training um einen evolutionären Prozess   des Maschinenzustands   handelt, können Verweise auf eine entsprechende Versionen in einem Versionierungssystem verwendet werden, um eine Transparenz über den evolutionären Entwicklungsprozess herzustellen. Diskutieren Sie die Vorteile und Einschränkungen eines solchen Ansatzes, insbesondere wenn eine sehr große Menge von Daten für das Training verwendet wird und   ständig mit einem Eingabestrom von Daten trainiert wird.
  • (Generative künstliche Intelligenz) Angenommen, Benutzer:innen verwenden generative KI zur Texterzeugung, dann sind einige Komponenten des Tupels   vielleicht nicht bekannt. Ggf. sind die verwendeten Trainingsdaten und noch nicht einmal die Lizenzbestimmungen der verwendeten Trainingsdaten bekannt. Um ein Minimum an Transparenz der Textgenerierung herzustellen, kann man zumindest die Reihenfolge der Texteingabe für die Textgenerierung   mit dem entsprechenden generierten Ausgaben   kenntlich machen. Dies kann ggf. verpflichtend für Studierende sein, um die Eigenleistung von generierten Textausgaben dokumentieren zu können. Dies ermöglicht es, den Mehrwert der Lernende zu identifizieren, der über das Resultat der generativen KI hinaus. Kernfragen für eine Bewertung der Leistung im Bildungskontext sind:
    • War die logische Struktur des Textbausteine, die durch die generative KI geliefert wurde, zielführend für die Aufgabenstellung einer wissenschaftlichen Arbeit? Was sind die Gründe für Studierende, die bereitgestellte generierte logische Struktur zu ändern? Wie haben die Änderungen der Studierenden die logische Struktur der KI-generierten Resultate verbessert?
    • Sind Zitate/Referenzen im generierten Dokument enthalten? Belegen die Zitate tatsächlich die diskutierten Inhalt in der wissenschaftlichen Arbeit?
    • Ist der Stand der Technik in der Wissenschaft richtig in der wissenschaftlichen Arbeit integriert worden oder erfordert die gegebene Forschungsfrage noch andere relevante wissenschaftliche Ergebnisse, um den aktuelle für das gegebene Thema erforderlichen wissenschaftlichen Kenntnisstand abzudecken?
    • Haben die Studierenden weitere Referenzen hinzugefügt und wissenschaftliche Argumente geliefert, warum diese Zitate fehlen bzw. die zustäzlichen Resultate in die Arbeit gehören?
    • Die Verwendung von generativem KI in einer Dissertation in Bezug auf Transparenz erfordert 3 Komponenten
      • (Prompt-Ergebnisse) Prompt-Ergebnisse sind Ergebnispaare  ,
      • (Manuelle Änderungen) manuelle Änderungen von   durch die Studierenden zu   und
      • (Metadiskussion) Metadiskussion, warum Änderungen an   notwendig sind, um die Anforderungen in einer wissenschaftlichen Arbeit zu erfüllen.
  • (Lizenzketten) Mit Lizenzierungsketten ist es möglich,   Transparenz über die verschiedenen Lizenzmodellen   herzustellen, um zusammen mit den Trainingsdaten   die generierten Ausgaben   zu klären. Durch diese Transparenz von Lizenzierung in Trainingsdaten kann man ggf. zu einer Teilmenge von Trainingsdaten   übergehen, da nicht die kompletten Trainingsdaten einer erforderlichen Lizenz entsprechen. Anstatt die Maschine mit   zu trainieren wird nun der reduzierte Trainingsdatensatz   verwendet. Damit wird der Maschinenzustand   mit einer lizenzkonformen Teilmenge   von Trainingsdaten trainiert und es entsteht mit   ein neuer lizenzkonformen Maschinezustand  .
    • Diskutieren Sie Anwendungen dieses Szenarios und diskutieren Sie PRO und CONTRA einer reduzierten Anzahl von Trainingsdaten für den Trainingsprozess zum Zeitpunkt  !
    • Welche Möglichkeiten ergeben bei diesem Vorgehen, Trainingsdatensätze auf transparenten Lizenz- und Herkunftsinformationen beschränken, die den wissenschaftlichen Anforderung der Datenerhebung genügen?

Beispiele - Derivative Arbeit für Daten

Bearbeiten

Betrachten Sie die folgenden Beispiele als Einführung und diskutieren Sie Unterschiede und Ähnlichkeiten von Machinellen Lernen, die auf dem Trainingsdatensatz   basiert:

  • (Neue Daten) Aufgrund einer neuen empirischen Studie wird ein bestehender Trainingsdatensatzes   zum Zeitpunkt   mit zusätzlichen Daten erweitert und ein neuer Datensatz  ,
  • (Fehlende Daten in Datensätzen) im vorhandenen Trainingsdatensatz   werden zum Zeitpunkt   fehlende Werte hinzugefügt und   sind die korrigierten Daten.
  • (Korrigiere Daten) Eingabefehler in einem Trainingsdatensatz werden korrigiert z.B. Eingabedaten über die Temperatur   wurde auf   geändert.
  • (Training mit fehlerhaften oder unzureichenden Daten) Das Training mit dem Trainingsdatensatz   führte zu einem neuen Maschinenzustand  .

Beschreiben Sie das Vorgehen, damit die Ausgabe der Maschine nun die verbesserte Datenlage wiedergibt!


Aufgaben zu offenen Daten

Bearbeiten

Übertragen Sie das Konzept der abgeleiteten Arbeit, um Daten zu öffnen und zu diskutieren, wie Veränderungen und Modifikationen von Daten in einer transparenten Infrastruktur von einer wissenschaftlichen Gemeinschaft verwaltet werden können.

Lernaufgaben - Trainingsdaten

Bearbeiten

Analysieren Sie offenen Lizenzmodelle (wie GNU Public License, Creative Commons, ...) wie abgeleitete Arbeit und Ergänzungen von digitalen Beiträge erfolgen können und die Derivate weiterhin für die Gemeinschaft offen nutzbar bleiben können? Wie trägt das Lizenzierungsmodell zu offenen Ökosystem für Innovationen mit digitalen öffentlichen Gütern[1] arbeiten? Bewerben Sie dieses Konzept, um Daten für Open Machine Learning zu trainieren und die Anforderungen und Zwänge zu diskutieren. Offene Daten räumliches Risikomanagement z.B. im Rahmen der Straßenverkehrssicherheit[2]. Was sind die Vorteile, Herausforderungen, Anforderungen und Rahmenbedingungen, wenn man in diesem Zusammenhang maschinelles Lernen nutzen möchte?

Lernaufgaben - Offenes Maschinelles Lernen - Lizenzierungsketten

Bearbeiten

Als Voraussetzung nehmen wir an, dass Trainingsdaten unter einer offenen Lizenz vorliegen, die abgeleitete Arbeiten erlauben (z.B. Textdokumente unter einer Creative-Commons-Lizenz) und trainieren eine Maschine   zu einem Zeitpunkt   mit einem Open Source-Lernalgorithmus, der von der wissenschaftlichen Gemeinschaft transparent zur Verfügung gestellt wird. Ein neuer Systemzustand der Maschine   ändert das Ein-Ausgabeverhalten (In-Out-Behaviour - IOB) durch den Trainingsprozess. Jetzt generiert die Maschine die Ausgabe   mit Eingabedaten   mit  . Welches Lizenzierungsmodell sollte dem Ausgang   zugewiesen werden, wenn die Trainingsdaten unter der Lizenz   bereitgestellt werden? Diskutieren Sie verschiedene Aspekte bezüglich einer Lizenzierungskette, die die Ausgabe   der Maschine   wiederum als Trainingsdaten verwendet, um einen neuen Maschinenzustand   zu generieren!

Lernaufgaben - Gleiches maschinelles Lernverfahrenen mit unterschiedlichen Trainingsdaten

Bearbeiten

Nehmen wir an, wir haben zwei verschiedene offene Trainingsdatensätze   und  . Weiterhin verwenden Sie ein neuronales Netzwerkmodell (z.B. Backpropagationsnetzwerk und eine vordefinierte Topologie des Netzwerks (d.h. Anzahl der Neuronen, Verbindungen zwischen Neuronen, Neuronenschichten, ...) in einem künstlichen neuronalen Netz und eine festgelegte Aktivierungsfunktionen der Neuronen. Ferner ist initiale Ausgangszustände von zwei Maschinen mit   und   zur Zeit   gleich.

Verwenden Sie verschiedene Trainingsdatensätze

Bearbeiten

Mit den beiden unterschiedlichen Datensätzen     werden nun in einer offenen transparenten und reproduzierbare Weise die Abbildung   und   trainiert. Die Maschinen entwickeln sich damit auf unterschiedlichen Pfaden bzgl. des Zeitindexes  .

Training des Ein-Ausgabeverhaltens

Bearbeiten

Im Allgemeinen wird das Ein-Ausgabeverhalten (In-Output-Behaviour - IOB) zum Zeitpunkt   für die Maschinen   und   zum Zeitpunkt trotz gleichem Startzustands und gleichem Lernalgorithmus unterschiedlich sein. Diskutieren Sie die Rolle Trainingsdaten   und   als Teil der "Programmierung" des IOB beim Maschinellen Lernen.

Bias in Trainingsdaten

Bearbeiten

Was ist ein Bias? Diskutieren Sie einen Beispieltrainingsdatensatz Ihrer Wahl, die einen Bias (z.B. im Kontext der Menschenrechte, hinzugefügt gefälschte Nachrichtendaten, fehlende Daten, unzuverlässige Datenquellen,...) beinhaltet und erklären Sie, wie der Bias in den Trainingsdaten einen Einfluss auf das Ein-Ausgabeverhalten (IOB) der Maschine hat, die für die Entscheidungsfindung z.B. in der medizinischen Domain [3] verwendet wird. Wie kann Transparenz und Offenheit für die Trainingsdaten dazu beitragen, eine Bias[4] zu identifizieren. Was sind die Herausforderungen, Anforderungen und Einschränkungen (z.B. Datenschutzbestimmungen)?

Literatur/Quellennachweise

Bearbeiten
  1. 1,0 1,1 Nordhaug, L. M., & Harris, L. (2021). Digital public goods: Enablers of digital sovereignty. DOI: 10.1787/c023cb2e-en - In book: Development Co-operation Report 2021
  2. Najjar, A., Kaneko, S. I., & Miyanaga, Y. (2017, February). Combining satellite imagery and open data to map road safety. In Proceedings of the AAAI Conference on Artificial Intelligence (Vol. 31, No. 1).
  3. Mac Namee, B., Cunningham, P., Byrne, S., & Corrigan, O. I. (2002). The problem of bias in training data in regression problems in medical decision support. Artificial intelligence in medicine, 24(1), 51-70.
  4. Khosla, A., Zhou, T., Malisiewicz, T., Efros, A. A., & Torralba, A. (2012). Undoing the damage of dataset bias. In Computer Vision–ECCV 2012: 12th European Conference on Computer Vision, Florence, Italy, October 7-13, 2012, Proceedings, Part I 12 (pp. 158-171). Springer Berlin Heidelberg.

Externe Referenzen

Bearbeiten

Siehe auch

Bearbeiten

Seiteninformation

Bearbeiten

Diese Lernresource können Sie als Wiki2Reveal-Foliensatz darstellen.

Wiki2Reveal

Bearbeiten

Dieser Wiki2Reveal Foliensatz wurde für den Lerneinheit Open Community Approach' erstellt der Link für die Wiki2Reveal-Folien wurde mit dem Wiki2Reveal-Linkgenerator erstellt.