Herr Katzschmann, fand ein Paradigmenwechsel statt, oder ist Physical AI nur ein Buzzword?
Es gab zwei kritische Wendepunkte: Der erste war 2017, als das Google-Brain-Team das Paper «Attention Is All You Need» veröffentlichte. Es zeigte eine neue Architektur mit sogenannten Transformers, mit denen man massiv besser aus Datensätzen lernen konnte. Dann kam 2022 der Robotic-Transformer. Dieser zeigte: Ich kann Bilder mit Sprachinstruktionen kombinieren. Zum Beispiel so: «Greife den Apfel, und lege ihn in den Korb.» Der Arm führte die Aktion aus. Noch langsam, aber es funktionierte. Das war der Chat-GPT-Moment für die Robotik.
Wie lernt ein Roboter, einen Apfel zu heben und zu verschieben?
Wir arbeiten in drei Stufen. Erstens: «Imitation Learning». Der Roboter schaut dem Menschen zu und ahmt nach. Zweitens: «Offline Reinforcement Learning». Der Algorithmus bewertet, ob die Daten, die er sieht, gut oder schlecht sind, und passt seine Bewegungen entsprechend an. Die dritte Stufe ist «Online Reinforcement Learning». Der Roboter trainiert in Echtzeit, führt die Aufgabe aus und erhält Feedback. In einer Simulation können wir Tausende parallele Durchläufe gleichzeitig laufen lassen, mit variierenden physikalischen Parametern. So wird ein System robust für die echte Welt.

