1 Frage an…

Prof. Dr. Fabian Sinz

Mentor

Prof. Dr. rer. nat. Fabian Sinz ist seit 2021 Leiter des Lehrstuhls Maschinelles Lernen an der Fakultät für Mathematik und Informatik und dem Campus Institut Data Science (CIDAS) der Georg August Universität Göttingen. Sein Forschungsgebiet ist die Schnittstelle zwischen künstlicher und biologischer Intelligenz. Ins CAIMed bringt er seine Expertise für datengetriebene digitale Zwillingen von biologischen Systemen ein: Dies sind Modelle, die von Daten gelernt werden und das biologische System in wichtigen Aspekten nachahmen. Digitale Zwillinge können eine wichtige Rolle für das Verständnis biologischer Systeme und dem Entwurf von Wirkstoffen und Therapien spielen.

1.

Werden KI Modelle zusammenbrechen, wenn sie hauptsächlich mit synthetischen Daten gefüttert werden?

Die einfache Antwort ist „Nein“, oder besser gesagt, es kommt darauf an. Es gibt Beispiele für Modelle, die auf synthetischen oder simulierten Daten trainiert werden. So gibt es zum Beispiel Ansätze für das Training von Algorithmen für selbstfahrende Autos in der virtuellen Realität. Andere Beispiele sind Modelle, die anhand von physikalischen Simulationen trainiert werden. Das Paper befasst sich mit dem Problem, dass generative Modelle wiederholt auf den von ihnen erzeugten Daten trainiert werden. Der Nature-Artikel (Shumailov et al. 2024) zeigt anhand einfacher Modelle, dass ein solches Training dazu führen kann, dass sich die Modelle beliebig weit von der ursprünglichen Verteilung entfernen. Dies ist sicherlich ein Extremfall, in dem die Modelle im Wesentlichen nur mit sich selbst interagieren. In der Realität ist das jedoch nicht so, denn die Modelle erhalten weiterhin reale Daten durch menschliches Feedback. Generierte Daten können also ein Problem für die Umschulung darstellen, aber das ist keine unvermeidliche Folge. Als Wissenschaftler und Ingenieure müssen wir dies bei künftigen Modellgenerationen einfach berücksichtigen.