Maschinelles Lernen/überwachtes Lernen

Einleitung

Der Algorithmus lernt eine Funktion aus gegebenen Paaren von Ein- und Ausgaben. Dabei stellt während des Lernens ein „Lehrer“ den korrekten Funktionswert zu einer Eingabe bereit. Ziel beim überwachten Lernen ist, dass dem Netz nach mehreren Rechengängen mit unterschiedlichen Ein- und Ausgaben die Fähigkeit antrainiert wird, Assoziationen herzustellen.

Veranschaulichung

Eingabe-Verarbeitung-Ausgabe und Training

Beispiel - Automatische Klassifizierung

Ein Teilgebiet des überwachten Lernens ist die automatische Klassifizierung. Ein Anwendungsbeispiel wäre die Handschrifterkennung. Dabei bekommt das System Bildinformationen über geschrieben Buchstaben oder ganze Wörter und erhält gleichzeitig die Information, welche Buchstaben in dem Bild kodiert waren. Die Klassifizierung hat als Eingaberaum dann Bilder und als Ausgaberaum Buchstaben bzw. Buchstabenfolgen.

Zeitliche Veränderung eines Systems

In dem Begriff des "überwachten maschinelles Lernens" eines System $M$ steckt bereits eine zeitliche Veränderung des Systems in der Zeit, wobei die Ausgabe überwacht wird und z.B. die Abweichung von einem Sollwert aus den Trainingsdaten für die Anpassung der Lernparameter verwendet wird. In der folgenden Lernressource wird daher ein Maschinelles Lernsystem (kurz ML-System) $M_{t}:X\to Y$ mit einem Zeitindex $t$ versehen, das den Zustand des ML-Systems $M$ zum Zeitpunkt $t$ .

Maschinelles Lernen als Funktionenfolge

In dieser Lernressource wird Maschinelles Lernen (ML) als eine Funktionenfolge $(M_{t})_{t\in R}$ betrachtet, das sich in der Zeit $t$ verändert. $M_{t}:X\to Y$ ist zu jedem Zeitpunkt $t\in T$ eine Abbildung von einem Definitionsbereich $X$ in den Wertebereich $Y$ .

Verallgemeinerungsfähigkeit

Ein künstliches System, das aus Beispielen lernt, kann "verallgemeinern", wenn nicht nur für die Trainingsdaten (z.B. Ein-Ausgabepaare $(x_{i},y_{i})\in \mathbb {D} \subset X\times Y$ aus dem Ein-Ausgabegrundraum) korrekt Ausgaben produziert werden, sondern auch für neue unbekannte Eingaben korrekte bzw. akzeptabel gute Ausgaben produziert werden.

Ein-Ausgabepaare beim überwachtes Lernen

Wenn man Ein-Ausgabepaare $(x_{i},y_{i})\in \mathbb {D} \subset X\times Y$ als Trainingsdaten verwendet, spricht man von überwachtem Lernen. Die $y_{i}\in Y$ entspricht den erwarteten/empfohlenen Ausgaben einer "lehrenden" bzw. trainierenden Instanz. In der Trainingsphase bekommt das System $M$ Daten der Form der Ein-Ausgabepaare $(x_{i},y_{i})$ und in der Testphase.

Unterkategorien für Überwachtes Lernen

Es lassen sich noch einige Unterkategorien für Überwachtes Lernen identifizieren, die in der Literatur häufiger erwähnt werden:

Teilüberwachtes Lernen (englisch semi-supervised learning) Nur für einen Teil der Eingaben sind die dazugehörigen Ausgaben bekannt.^[1]
Aktives Lernen (englisch active learning) Der Algorithmus hat die Möglichkeit, für einen Teil der Eingaben die korrekten Ausgaben zu erfragen. Dabei muss der Algorithmus die Fragen bestimmen, welche einen hohen Informationsgewinn versprechen, um die Anzahl der Fragen möglichst klein zu halten.^[2]
Selbständiges Lernen (englisch self-training) Dieser Algorithmus kann in zwei wesentliche Komponenten eingeteilt werden. Die erste Algorithmuskomponente (Lehrer) leitet aus einem bestehenden gelabelten Datensatz weitere Datensätze mit Pseudolabeln her. Die zweite Algorithmuskomponente lernt nun aus dem erweiterten gelabelten Datensatz und wendet gefundene Muster für ihr eigenes Modell an.^[3]

Siehe auch

Unüberwachtes Lernen

Quellennachweise

↑ Ralf Mikut: Data Mining in der Medizin und Medizintechnik. KIT Scientific Publishing, 2008, ISBN 978-3-86644-253-5, S. 34 (Google books).
↑ Paul Fischer: Algorithmisches Lernen. Springer-Verlag, 2013, ISBN 978-3-663-11956-2, S. 6–7 (Google books).
↑ Self-training with Noisy Student improves ImageNet classification. In: Arxiv. Abgerufen am 20. Dezember 2019 (englisch).

[1] Ralf Mikut: Data Mining in der Medizin und Medizintechnik. KIT Scientific Publishing, 2008, ISBN 978-3-86644-253-5, S. 34 (Google books).

[2] Paul Fischer: Algorithmisches Lernen. Springer-Verlag, 2013, ISBN 978-3-663-11956-2, S. 6–7 (Google books).

[3] Self-training with Noisy Student improves ImageNet classification. In: Arxiv. Abgerufen am 20. Dezember 2019 (englisch).

[1]

[2]

[3]