Kurs:Maschinelles Lernen/Grundbegriffe des maschinellen Lernens

Vorherige Seite: K0 - Matrizen
Nächste Seite : K1 - Hypothesen aus Daten Ableiten

Zeil von maschinellem Lernen Bearbeiten

Beim maschinellen Lernen geht es darum, aus vorliegenden Daten Vorhersagemodelle, Entscheidungsregeln oder Mustererkennungen zu erstellen, um daraus Entscheidungen unter dem Auftreten neuer Daten zu treffen. Dazu gibt es verschiedene Methoden, die für verschiedene Probleme besser oder schlechter geeignet sind.

Abgrenzen von Begriffen Bearbeiten

  • Künstliche Intelligenz (KI): Unter künstlicher Intelligenz werden Algorithmen verstanden, die menschlisches Denken immitieren können. Es wird unterschieden in schwache KIs, die nur spezielle Aufgaben lösen können, und starke KIs, die mehrere Aufgaben bearbeiten können.
  • Maschinelles Lernen (ML): Unter maschinellem Lernen werden verschiedene Methoden gesammelt, die das Erlernen zum Lösen expliziter Aufgaben erlauben. Methoden des ML, erlauben es KIs zu programmieren. Das Themenfeld ML ist damit ein Teilaspekt des Themenfeldes der KIs.
  • Deep Learning (DL): Unter Deep Learning werden Algorithmen verstanden, die auf Neuronalen Netzen basieren. "Deep" bezieht sich dabei auf die größere Anzahl an Netzwerkschichten, die hintereinandergeschaltet Teilaufgaben der Informationsverarbeitung übernehmen (siehe auch Feedforwardnetze Arbeits Neuronale Netze sind eine spezielle Methode des MLs und damit handelt es sich beim Themenfeld DL um einen Teilaspekt des MLs.
  • Überwachtes Lernen: Beim überwachten Lernen liegen zum Trainieren Datenpaare aus Eingabedaten der Menge   und Ausgabedaten der Menge   vor. Ein Datensatz aus   solcher Paare wird mit   beschrieben. In einem solchen Fall wird bei den Werten   von Labels und insgesamt von gelabelten Daten gesprochen. Typischerweise stammen die Eingabedaten aus der Menge  , während für die Ausgabedaten in zwei Fälle unterschieden wird:
    • Regression: Handelt es sich beim Raum der Ausgabedaten um ein Intervall oder gar die reellen Zahlen, so wird von einer Regression gesprochen. Der Ergebnisraum ist damit durch   bestimmt und behandelt kontinuierliche Werte als Ausgabe. Das Ziel ist es dann, einem Eingabevektor   eine reelle Zahl zuzuordnen.
    • Klassifikation: Handelt es sich beim Raum der Ausgabedaten um eine endliche Menge und somit um diskrete Werte, so wird von einer Klassifikation gesprochen. Das Ziel ist es dann, einem Eingabevektor   eines der Elemente in   zuzuordnen. Bei binären Entscheidungen wird bspw. der Ergebnisraum   verwendet.
  • Unüberwachtes Lernen: Beim unüberwachten Lernen liegen nur die Eingabedaten aus der Menge   vor. Die Daten sind also nicht gelabelt. Dann besteht die Aufgabe meist darin, Anhäufungen von Daten (sog. Cluster) zu finden. (s. Hierzu auch Kapitel 5 dieses Kurses)

Mathematische Formulierung des überwachten maschinellen Lernens Bearbeiten

Darstellung der Daten Bearbeiten

Aus den einzelnen Eingabedaten aus  , lässt sich für einen Datenpunkt der Vektor

 

aufschreiben. Hieraus wird die sogenannte Datenmatrix

 

gebildet. In ihren Zeilen stehen die   dimensionalen Eingabevektoren der einzelnen Datenpunkte, während die Spalten bestimmte Komponenten aller   Datenpunkte beinhalten.

Daneben wird oft die erweiterte Datenmatrix

 

mit einer zusätzlichen Spalte an Einsen definiert. Sie erlaubt es, vielen Algorithemen durch das Anwenden von Matrizen auf Vektoren zu beschreiben. Daneben ist es oft angebracht, die Ausgabedaten eines Datensatzes in einem Vektor der Form

 

zusammenzufassen, der als Ergebnisvektor bezeichnet wird.

Formulierung des Problems Bearbeiten

Wird nun angenommen, die Daten folgten einer perfekte Zuordnung, die als Zielfunktion (engl. target function)

 

bezeichnet wird, so ist das grundlegende Ziel, diese Funktion zu bestimmen.

Da dies aber praktisch nicht möglich ist, wird versucht, durch Hypothesen

 

diese Zielfunktion möglichst gut anzunäheren, so dass eine spezielle Funktion

 

gefunden wird, für die (salopp formuliert)   gilt. Die Menge aller Hypothesen wird als Hypothesenraum   bezeichnet. In der Praxis können aber auch nicht alle Hypothesen berücksichtigt werden, so dass bspw. nur lineare oder polynome Funktionen betrachtet werden und so der Hypothesenraum mit dem Raum aller linearen Funktionen oder dem Raum aller Polynome zusammenfällt.

Versionsraum und Güte von Modellen Bearbeiten

Im Idealfall sollte die gefundene Hypothese   in der Lage sein, alle Daten im passenden Rahmen richtig vorherzusagen. Wird dazu eine binäre Klassifikation herangezogen, gibt es die möglichen Ausgänge der folgenden Tabelle

Tatsächlich / Ergebnis von   0 1
0 richtig negativ falsch positiv
1 falsch negativ richtig positiv

Für eine vollständig richtige Klassifikation dürfen weder falsch positive Ergebnisse noch falsch negtive Ergebnisse auftreten. Wenn keine falsch Negative auftreten, wird die Hypothese als vollständig bezeichnet. Wenn keine falsch Positive auftreten, wird die Hypothese als konsistent bezeichnet. Bei binären Klassifiaktionen wird also idealerweise nach Hypothesen gesucht, die konsistent und vollständig sind. Es gibt verschiedene Maße, mit denen die Güte bzgl. einer binären Klassifiaktion gemessen werden, die bspw. bei Wikipedia - Beurteilung eines binären Klassifikators eingesehen werden können. Da es in der Regel mehrere Hypothesen gibt, die diese Bedingung erfüllen werden, spannen sie einen eigenen Raum auf, der als Versionsraum (engl. version space)   bezeichnet wird. Auch innerhalb von   gibt es Hypothesen, die als besser bzw. als schlechter bewertet werden können. So ist für eine binäre Entscheidung, die aus einem Satz vorliegender Daten gewonnen wurde, eine Entscheidungsregel besser, die den Abstand zu den einzelnen Datenpunkten maximiert (s. Support Vector Machines). Ebenso ist eine Hypothese mit weniger Parametern durch ihre Einfachheit zu bevorzugen (s. Wikipedia - Ockhams Rasiermesser)