Wikiversity:Fellow-Programm Freies Wissen/Einreichungen/Simulation komplexer Datensätze zur Charakterisierung von Methoden des maschinellen Lernens

Simulation komplexer Datensätze zur Charakterisierung von Methoden des maschinellen Lernens Bearbeiten

Projektbeschreibung Bearbeiten

Durch die Einführung von Hochdurchsatz-Methoden ist es heutzutage möglich, Patienten und gesunde Kontrollen umfassend molekularbiologisch zu charakterisieren. Dabei werden für jede Person zahlreiche, große Datensätze generiert, die jeweils einem Fingerabdruck einer Gruppe biologischer Moleküle entsprechen. Die Aufklärung komplexer Zusammenhänge durch die Kombination verschiedener Datensätze, gemeinsam mit Informationen über Lebensstil und Umwelteinflüsse, wird in Zukunft eine individualisierte und gesamtheitliche und damit systemmedizinisch orientierte Therapie ermöglichen. Die Weiterentwicklung und Etablierung der Systemmedizin in Deutschland wird deshalb durch e:Med, dem deutschlandweiten Forschungsprogramm des Bundesministeriums für Bildung und Forschung gefördert.

In der e:Med Nachwuchsgruppe „ComorbSysMed“ beschäftigen wir uns mit der Untersuchung von Begleiterkrankungen chronisch-entzündlicher Hautkrankheiten, wie Atopischer Dermatitis und Psoriasis. Um die zugrundeliegenden pathophysiologischen und molekularen Mechanismen zu verstehen, werden verschiedene molekularbiologische Datensätze, sowie klinische Informationen und biologisches Wissen mithilfe von Verfahren des maschinellen Lernens in mathematische Modelle integriert. Im Rahmen der Nachwuchsgruppe werden hierfür unterschiedliche statistische und bioinformatische Methoden entwickelt, in umfangreichen Simulationsstudien evaluiert und anschließend in existierenden Patientenkollektiven angewendet. Ein Ziel dabei ist es, die neu entwickelten statistischen und bioinformatischen Methoden als Pakete für die frei verfügbare statistische Software R zu implementieren. Dadurch wird eine weite Verbreitung der Projektergebnisse in der Forschungsgemeinschaft ermöglicht, so dass sie auch für ähnliche klinische und biologische Fragestellungen verwendet werden können.

Um existierende Methoden des maschinellen Lernens zu evaluieren und neue Methoden zu entwickeln, ist die Verwendung von simulierten Datensätzen mit bekannten Beziehungen zwischen Einflussgrößen und Krankheiten essenziell. Der in der Nachwuchsgruppe verfolgte systemmedizinische Ansatz verwendet viele unterschiedliche Arten von Informationen für die Modellierung, die nur zum Teil durch bisher existierende Simulationstools abgedeckt werden. Aus diesem Grund ist die Entwicklung, Implementierung und Evaluierung von Simulationsumgebungen notwendig, um Datensätze unterschiedlicher Komplexität zu generieren. Dabei ist sowohl der Vergleich mit existierenden Datensätzen aus dem Labor, als auch die Verwendung von aus diesen Daten erhaltenen Simulationsparametern entscheidend, um möglichst realitätsnahe Daten zu simulieren.

Ich arbeite momentan an der Simulation solcher Datensätze, die dazu verwendet werden, neue Methoden zu entwickeln, um relevante Variablen aus komplexen Datensätzen zu identifizieren und verschiedene Methoden der Variablenselektion zu vergleichen. Erste Ergebnisse dieser Analysen sind bereits zur Publikation eingereicht. Das Ziel der folgenden Monate ist es, die hier verwendeten Simulationstools und Methoden weiterzuentwickeln, weitere Simulationsumgebungen miteinzubeziehen und zusätzliche Vergleiche verschiedener Methoden durchzuführen. Die Ergebnisse dieser Analysen, sowie die verwendeten Skripte und erstellten Datensätze, möchte ich anschließend offen zugänglich und damit auch für andere Wissenschaftler/innen nachvollziehbar und nutzbar machen. Ein wichtiger Aspekt dabei wird es sein, eine geeignete Internetplattform zu finden, durch die eine leichte und schnelle Auffindbarkeit der Dokumente erreicht wird. Eine Veröffentlichung auf der eigenen Universitäts- oder Institutswebseite sehe ich als zu schlecht auffindbar und nicht ausreichend nachhaltig an. Mir bekannte Repositorien sind auf die Archivierung von experimentellen Daten fokussiert und deshalb für die Bereitstellung von simulierten Datensätzen nicht geeignet. Durch die Teilnahme am Fellow-Programm Freies Wissen erhoffe ich mir, geeignete Möglichkeiten und Methoden in Erfahrung zu bringen, um mit der Veröffentlichung ein möglichst breites Publikum interessierter Wissenschaftler/innen anzusprechen und erreichen zu können.


Autor/in Bearbeiten

  • Dr. Stephan Seifert
  • Christian-Albrechts-Universität zu Kiel
  • seifert@medinfo.uni-kiel.de