Die KI als Physikerin
Das Aufstellen einer neuen Theorie verbindet man typischerweise mit den ganz Großen der Physik. Man denke an Newton oder Einstein. Viele Nobelpreise wurden bereits dafür vergeben. Forscher:innen vom Forschungszentrum Jülich haben nun eine künstliche Intelligenz programmiert, die dieses Kunststück ebenfalls beherrscht. Ihre KI ist in der Lage, Gesetzmäßigkeiten in komplexen Datensätzen zu erkennen und diese in Form einer physikalischen Theorie zu formulieren.
Das Bild wurde ebenfalls mittels KI erzeugt, in diesem Fall mit der generativen Bild-KI Stable Diffusion. Abbildung: Forschungszentrum Jülich
Beteiligte Bernstein-Mitglieder: Alexandre René, Peter Bouss
Prof. Moritz Helias vom Jülicher Institute for Advanced Simulation (IAS-6) erklärt im Interview, was es mit dieser „Physik der KI“ oder „Physics of AI“ auf sich hat und inwiefern sie sich von konventionellen Ansätzen unterscheidet.
Prof. Helias, wie kommen eigentlich Physikerinnen und Physiker zu einer neuen Theorie?
Üblicherweise geht man von Beobachtungen des Systems aus, und versucht, einen Vorschlag zu machen, wie die verschiedenen Systemkomponenten miteinander interagieren, um das beobachtete Verhalten zu erklären. Dann leitet man neue Vorhersagen daraus ab, und prüft diese. Ein bekanntes Beispiel ist das Gravitationsgesetz von Isaac Newton. Es beschreibt nicht nur die Anziehungskraft auf der Erde. Auch die Bewegungen von Planeten, Monden und Kometen lassen sich damit – genau wie die Bahnen moderner Satelliten – ziemlich exakt vorhersagen.
Wie eine solche Hypothese zustande kommt, ist aber immer unterschiedlich: Man kann von allgemeinen Prinzipien und Grundgleichungen der Physik ausgehen, und daraus die Hypothese ableiten, oder man kann einen phänomenologischen Ansatz wählen – und sich darauf beschränken, Beobachtungen möglichst fehlerfrei zu beschreiben, ohne ihre Ursachen zu erklären. Die Schwierigkeit liegt darin, einen guten Ansatz von vielen möglichen auszuwählen, ihn gegebenenfalls anzupassen, und zu vereinfachen.
Welchen Ansatz verfolgen Sie mit der Physik-KI?
Generell geht es hier um einen Ansatz, den man als “Physics for machine learning” bezeichnet. Wir verwenden in unserer Arbeitsgruppe Methoden der Physik, um die komplexe Funktion einer KI zu analysieren und zu verstehen.
Die wesentliche neue Idee von Claudia Merger aus unserer Arbeitsgruppe war es, zunächst ein neuronales Netzwerk zu benutzen, das lernt, das beobachtete komplexe Verhalten exakt auf ein einfacheres System abzubilden. Das heißt, das Ziel der KI ist es, all die komplexen Interaktionen zwischen Systemkomponenten, die wir beobachten, zu vereinfachen. Dann gehen wir von dem einfachen System aus und erzeugen mit der trainierten KI eine inverse Abbildung. Auf dem Weg zurück, also vom einfachen System zurück zum komplexen, entwickeln wir dann die neue Theorie. Auf dem Rückweg bauen sich die komplexen Interaktionen Stück für Stück aus den einfacheren zusammen. Die Vorgehensweise unterscheidet sich also letztlich gar nicht so sehr von der einer Physikerin oder eines Physikers, mit dem Unterschied, dass die Art und Weise, wie die Interaktionen sich zusammenbauen, nun aus den Parametern der KI abgelesen wird. Diese Perspektive auf die Welt, sie aus Interaktionen zwischen ihren verschiedenen Teilen zu erklären, die bestimmten Gesetzen folgen, liegt der Physik zugrunde – daher auch der Begriff “Physics of AI”.
Bei welchen Anwendungen kam die KI zum Einsatz?
Wir haben zum Beispiel einen Datensatz von Schwarz-Weiß-Bildern mit handgeschriebenen Zahlen verwendet, der in der Forschung häufig für die Arbeit mit neuronalen Netzen zum Einsatz kommt. Claudia Merger hat damit im Rahmen ihrer Doktorarbeit untersucht, wie kleine Substrukturen in den Bildern, wie zum Beispiel die Kanten der Zahlen, sich aus Interaktionen von Pixeln zusammensetzen. Dabei findet man Gruppen von Pixeln, die bevorzugt gemeinsam heller sind und somit zu der Form der Kante der Zahl beitragen.
Wie hoch ist der Rechenaufwand?
Die Verwendung der KI ist ein Trick, der die Berechnungen überhaupt erst möglich macht. Denn man kommt sehr schnell auf eine sehr große Zahl von möglichen Interaktionen. Ohne diesen Trick könnte man sich nur sehr kleine Systeme ansehen. Trotzdem ist der Rechenaufwand immer noch groß: das liegt daran, dass es auch in Systemen mit vielen Komponenten sehr viele mögliche Interaktionen gibt. Wir können diese aber effizient parametrisieren, sodass wir nun Systeme mit etwa Tausend intaeragierenden Komponenten – also etwa Bildbereiche mit bis zu 1000 Pixeln – ansehen können. Perspektivisch dürften durch weitere Optimierung auch noch wesentlich größere Systeme möglich sein.
Inwiefern unterscheidet sich dieser Ansatz von anderen KIs wie zum Beispiel ChatGPT?
Viele KIs zielen darauf ab, eine Theorie der Daten, mit der die KI trainiert wird, zu lernen. Allerdings sind die Theorien, die die KIs lernen üblicherweise nicht interpretierbar: sie sind implizit in den Parametern der trainierten KI verborgen. Unser Ansatz hingegen extrahiert die gelernte Theorie und formuliert sie in der Sprache der Interaktionen zwischen Systemkomponenten, die der Physik zugrunde liegt. Er gehört also in den Bereich der erklärbaren KI, bzw. “Explainable AI”, im Speziellen “Physics of AI”, da wir hier die Sprache der Physik verwenden um zu erklären, was die KI gelernt hat. Wir können mit der Sprache der Interaktionen eine Brücke zwischen dem komplexen Innenleben der KI und für Menschen verständlichen Theorien schlagen.