Es ist März 2022. Der Präsident der Ukraine, Wlodomir Zelensky, erklärt in einem Video, die Ukraine kapituliere. Er ruft die Ukrainerinnen und Ukrainer dazu auf, die Waffen niederzulegen. Wenn ihr jetzt hellhörig geworden seid: Das Video ist ein Deepfake. Also kein echtes Video, sondern eine KI-generierte Manipulation. Das erfährt die Welt schnell von Zelensky selbst auf Instagram. Aber man sieht es auch im Video, wenn man ein bisschen genauer hinguckt. Zelenskys Mimik wirkt ein bisschen unnatürlich, die Hautfarbe von Halspartie und Gesicht stimmen nicht ganz überein. Aber für alle, die flüchtig Social Media konsumieren, also fast alle Nutzerinnen und Nutzer, kann so ein Video, das falsche Informationen verbreitet, natürlich weitreichende Folgen haben. So ein Deepfake macht ein Schlüsselelement von KI gut sichtbar: Etwas, das zwar missbraucht werden kann, aber ziemlich wichtig ist für weitreichende Anwendungen von KI. KI muss unsere Wirklichkeit perfekt kennenlernen. Wie das geht und warum das zentral für die Weiterentwicklung von KI-Tools ist, das erfahrt ihr heute. Mein Name ist Jessi Jus. Hi! Ach Mensch, Schwerpunkt Künstliche Intelligenz. Bestimmt kennt ihr das auch: Ihr schaut euch einen Film auf Deutsch an, das Original ist Englisch, und hier und da fällt euch einfach auf, dass sich die Mundwinkel der Schauspielerinnen und Schauspieler nicht ganz so bewegen, wie sie sich eigentlich bewegen müssten. Das alte Problem mit der Synchro. Hollywood benutzt zur Nachbesserung mittlerweile KI. Ohne die Forschung von Christian Theobald würde es die vermutlich gar nicht geben. Er ist Direktor am Max-Planck-Institut für Informatik in Saarbrücken und hat das Tool für die Filmwelt quasi mitentwickelt. In Saarbrücken stellt er an der Schnittstelle von Computervision, Computergrafik und Künstlicher Intelligenz Man könnte sagen, er bringt KI nicht nur das Sehen bei, sondern auch, unsere Welt daraufhin eben zu interpretieren und zu verstehen. Um dahin zu kommen, entwickelt er mit seinem Team Methoden, um mit Hilfe von KI Modelle der realen Welt zu bauen. Klingt alles wahnsinnig kompliziert, aber es gibt ein paar sehr anschauliche Beispiele, die gut erklären, warum solche Modelle für KI-Anwendungen total wichtig sind. Warum sich bei ihm auch immer wieder bekannte Hollywood-Regisseure melden, das kann er uns jetzt verraten. Sie forschen ja schon ziemlich lang an Künstlicher Intelligenz. Sie sind der Direktor am Max-Planck-Institut für Informatik. Mich interessiert immer, ob sich Wissenschaftler und Wissenschaftlerinnen noch irgendwie daran erinnern können, wie alles so anfing. Also, ob es irgendwie eine Initialzündung gab, um sich mit KI zu beschäftigen. Vielleicht sogar so eine Art Aha-Erlebnis, so ein Erlebnis von „Wow, das könnte man vielleicht machen“. Genau so etwas möchte ich wissen. Ja, das ist eine sehr gute Frage. Also, Sie sagen ja richtig, wir beschäftigen uns mit KI-Techniken. Aber wir beschäftigen uns mit KI-Techniken im Grenzgebiet zum Visual Computing, also auch Techniken der Computer Vision, also Bilderkennung und Computergrafik. Und eigentlich ist es das, wo meine Forschung ursprünglich herkommt. Für uns war es fast eher so, dass wir gesehen haben, neue Methoden, die aus der KI kommen, insbesondere natürlich maschinelle Lerntechniken, haben ein großes Potenzial, um eben auch in Kombination mit etablierten Techniken aus unserer Forschung neue Dinge zu ermöglichen. Und ich glaube, da gab es mehrere wichtige Momente in der Forschung. Also ich denke, was gerade den Bereich Visual Computing betrifft, hatten wir sozusagen die Erforschung, die Entwicklung neuer sogenannter Convolutional Neural Networks, die praktisch klassische schwierige Fragen in der Computer Vision zum Beispiel einfach viel, viel besser lösen können als etablierte Techniken. Das sind so Feature Matching, klassische Korrespondenzfindungsverfahren. Und dort konnte man sehen, dass eben mit diesen datengetriebenen Methoden ganz neue Dinge ermöglicht werden. Und das war sicher einer dieser Momente, wo man das Potenzial erkennen konnte. Haben Sie da so ein ganz konkretes Beispiel für uns, mal so etwas Handfestes, was man damit dann machen konnte? Genau, also da geht es jetzt um die Frage, also Fragen wie zum Beispiel klassische Computer Vision Probleme: Wie kann ich Dinge in einem Bild erkennen, also klassifizieren? Was sehe ich in einem Bild? Oder das klingt jetzt zunächst mal einfach. Die Frage ist, welcher Punkt in Bild 2 das sind so klassische Korrespondenzfindungsfragen, sind die schwierigsten Probleme in der Bilderkennung zum Beispiel. Und das konnte man eben mit solchen maschinellen Lernverfahren, gerade mit diesen neuen neuralen Netzwerkarchitekturen, viel, viel besser lösen als mit allen klassischen Verfahren, die man vorher sozusagen von Hand entwickelt hat. Das heißt, Sie haben es gerade eben schon gesagt: Sie forschen an der Schnittstelle von Computergrafik, Computer Vision und künstlicher Intelligenz. Lässt sich das zusammenfassen, alles was mit KI und generierten Bildern zu tun hat? Also, wir erforschen viele der Aspekte, die diese Dinge zusammenführen. Vielleicht jetzt nicht alle diese Aspekte, also das können wir natürlich auch in einem Team bei uns so nicht leisten. Ich denke, was wir in erster Linie tun, ist, wir entwickeln neue Methoden, um aus Bilddaten, aus Sensordaten Modelle der realen Welt zu bauen. Und wie kann man das machen? Modelle der realen Welt haben viele Aspekte. Das können zum Beispiel Formaspekte, Geometrie, was sind die Formen, die man in der Szene sieht, was sind die Eigenschaften, wie bewegen sich Dinge in der Szene, was passiert in der Szene? Wie vor allem auch, was wir sehr viel erforschen, ist, was tun Menschen in der Szene, wie interagieren sie mit Objekten? Und das ist sozusagen das Ziel dieser Modellbildung. Und mit diesen Modellen kann man dann auch nochmal überlegen: Kann ich jetzt zum Beispiel auch besser verstehen, was ich in der Szene sehe? Kann ich aber auch simulieren? Das ist jetzt nochmal der Computergrafikaspekt: Wie könnte eine alternative Variante davon aussehen? Das heißt, wir entwickeln das jetzt nicht auf eine spezielle Anwendung hin, sondern wir schauen uns natürlich die grundlegenden methodischen Fragen dahinter an. Aber das sind die Richtungen, in die diese Techniken dann später auch eingesetzt werden können. Ja, das führt mich direkt zu einer eher grundlegenden Frage. Ich habe nämlich auch gelesen, dass Sie sich insbesondere eben mit der Rekonstruktion und Simulation der realen Welt durch KI beschäftigen. Und meine erste Frage war einfach: Warum würde man denn die reale Welt überhaupt mit KI simulieren wollen? Genau, also zunächst mal: Simulieren ist das eine, aber Sie sagten ja: Rekonstruktion ist das andere. Also warum Rekonstruktion oder das Modellbilden der realen Welt ist im Prinzip ja die Voraussetzung für das Entwickeln neuer intelligenter Computersysteme. Wenn ich mir überlege, ich habe ein System, das in neuer Form mit der Welt interagieren will, das sicher auch mit Menschen in der Welt interagieren soll, dann muss das System ja im Prinzip die Fähigkeit haben, zu verstehen, was dort passiert. Und dafür braucht man Modelle. Das ist zunächst mal eine ganz grundlegende, fast schon man kann sagen, eine Wahrnehmungseigenschaft, die Computersysteme haben müssen. Und in Zukunft werden wir sicher neue Arten und Weisen sehen, wie man mit Computersystemen interagiert, die viel eher menschenähnlich sind, statt klassischen, sage ich mal, Keyboard und Mausinteraktionen heute. Und dazu braucht man eben diese Fähigkeiten, Modelle und das Verständnis der realen Welt zu haben. Simulationen ist das andere. Das ist eher der computergrafische Aspekt. Da geht es dann auch darum, also die Simulation kann in vielen Bereichen eingesetzt werden: also Computergrafik, Computeranimation, also der klassische Einsatzbereich für kreative Anwendungen in dem Bereich, aber auch für Simulation im Engineering-Bereich, wo es darum geht, Varianten von Dingen, Objekten, Maschinen zu simulieren. Also das ist praktisch der gesamte Bereich, in dem visuelle Techniken zur visuellen Simulation eingesetzt werden, erfährt praktisch neue Möglichkeiten durch den Einsatz dieser KI-Techniken. Virtuelle und erweiterte Realität hatte ich erwähnt. Wir könnten da viele Beispiele jetzt aufzählen. Ich habe mir mal angeschaut, was für Forschungsprojekte Sie so an Ihrem Institut haben, und mir ist aufgefallen, dass bei Ihnen, das ist vielleicht auch naheliegend, dass viele Ihrer Forschungsprojekte tatsächlich ziemlich nützlich sein werden oder es zum Teil auch schon sind für die Filmbranche. Sie haben zum Beispiel eine Methode entwickelt, wie man mit nur einer oder wenigen Kameras das Motion-Capture-Verfahren bei Filmen radikal vereinfachen kann. Also für alle, die jetzt gerade nicht mehr so genau wissen, was Motion Capture bedeutet: Wir alle kennen irgendwie Making-ofs von, ja, vor allem so Fantasy-Filmen oder Filmen mit Animationsfiguren. Da sieht man in den Making-ofs oft, dass die Schauspielerinnen in so witzigen Anzügen mit so ganz vielen Sensorpunkten rumlaufen, meistens vor einem Greenscreen. Das Paradebeispiel dafür ist, glaube ich, Gollum aus „Herr der Ringe“. Also solche Drehs sind dann aufgrund Ihrer Forschungsergebnisse in Zukunft nicht mehr nötig. Ich würde nicht sagen, nicht mehr nötig, aber man kann sie anders lösen, diese Schwierigkeiten. Also wir haben in der Tat, wir arbeiten seit vielen Jahren daran, wie man mit möglichst wenig Instrumentierung in der Szene oder an der Person sehr gute Modelle der Bewegung von Personen aus Kameradaten messen kann. Und der Grund, warum Sie haben es ja schon gesagt, klassisch Motion Capture bedeutet, man trägt spezielle Anzüge oder man ist typischerweise auch in speziellen Studios. Und der schlichte Grund dafür ist, weil durch diese Instrumentierung am Körper wird das Problem technisch einfacher. Es wird aber sozusagen weniger nützlich. Und was wir uns angeschaut haben, ist, wie kann man dieses viel schwierigere Problem, also jetzt nur mit wenigen Kameras, weil das ein sehr unterbestimmtes Problem ist, aber auch mit generellen Szenen, weil die Personen ja ganz unterschiedliche Kleidung tragen, ganz unterschiedlich aussehen. Es muss ja sozusagen trotzdem gut funktionieren, hoher Genauigkeit, wie man das praktisch mathematisch algorithmisch formulieren kann, dass eben auch schnell und mit wenigen Kameras zu machen. Da haben wir über viele Jahre neue Techniken entwickelt und die können jetzt nicht nur in der Filmbranche, aber auch in der Filmbranche eben eingesetzt werden, um jetzt viel besser die Bewegungsmodelle für virtuelle Schauspieler zum Beispiel, die ja in Spezialeffekten drauf werden, auch zu verwenden. Aber das ist nicht das Einzige. Also viele von den Techniken werden auch im medizinischen Bereich eingesetzt, im Sportanalysebereich, im biomechanischen Bereich. Wir haben gerade später nochmal auch ein Meeting, wo es darum geht, wie solche Techniken auch in der Therapie, also von bestimmten Verletzungen, eingesetzt werden. Nochmal einen kleinen Schritt zurück. Also diese Anzüge, wie ich es gerade beschrieben habe, die waren ja meistens mit ganz vielen Sensoren bestückt, das heißt, ganz vielen Instrumenten, die irgendwie Daten quasi weiter abgeben können. Wenn man jetzt nur eine oder ganz wenige Kameras hat, ist es dann die KI, die quasi den Teil, den die Kamera nicht sieht, dazu ich sage jetzt nicht imaginieren, aber sich quasi dann dazu rechnen kann? Weil das ist die Übertragungsleistung, bei der ich gerade noch Schwierigkeiten habe. Die Kamera sieht ja oder wenige Kameras sehen ja nur einen Ausschnitt oder muss man die Menschen dann ständig umkreisen, um jeden Winkel einmal abgefilmt zu haben? Genau, also die Schwierigkeit ist tatsächlich die, dass, wenn man jetzt am Ende zum Beispiel nur eine Kamera hätte, ja, und es ist ja so, man sieht das ja selbst, wenn man sich ein Auge zuhält und versucht, einen Abstand von der Szene zu schätzen, dann ist das viel, viel schwieriger. Also mit einer Kamera ist das Problem eigentlich ja unterbestimmt. Nun ist es aber trotzdem so, dass in den Bilddaten sehr viele, sehr viele kleine Informationen drinstecken, die trotzdem eine sehr gute Information darüber geben, was die aktuelle Körperpose ist, welches Teil des Körpers zum Beispiel jetzt das Knie oder wo die Gelenke praktisch des Skelettes zu sehen sind, worauf wir dann die Bewegungsdaten ja abbilden würden. Und das ist genau die Stärke von maschinellen Lernverfahren, dass sie eben es schaffen, viel besser als wir das sozusagen am Reißbrett könnten, zu sagen: Also wir versuchen jetzt am Reißbrett, diese einzelnen Informationen irgendwie im Bild zu finden, sondern das maschinelle Lernverfahren kann tatsächlich diese einzelnen Schlüssel, die kleinen Schlüssel, die in den Körpern stecken, und daraus dann eben eine Schätzung abgeben, wie die Pose aussieht. Und das ist genau die Stärke, weil das Verfahren automatisch in der Lage ist, das zu tun. Man kann sich auch in gewisser Weise vorstellen, dass das Verfahren eben aus vielen Trainingsdaten auch lernt, was sind plausible Bewegungen und das dann abbilden kann zu den Bilddaten, die man gleichzeitig sieht. Sie haben eben schon ein paar Anwendungsgebiete über jetzt den Film hinaus genannt. Bei der Medizin zum Beispiel bin ich gerade hellhörig geworden. Können Sie da mal ein konkretes Beispiel nennen, was man damit machen könnte? Ja, kann ich ganz konkret sagen. Also wie gesagt, wir haben in der Grundlagenforschung seit vielen Jahren neue Verfahren entwickelt, wie man dieses mit wenigen Kameras eben auch in generellen Szenen gute Posenschätzungen machen kann. Wir hatten dann eben auch aus dem Institut heraus eine Firma ausgegründet und diese Firma arbeitet auch zusammen mit einem Partner, wo diese Techniken eingesetzt werden, um aus Bewegungsdaten, die man nun mit einfachen Videoaufnahmen praktisch rekonstruieren kann, zum Beispiel zu analysieren, könnte sich ein Problem entwickeln im Bewegungsapparat der Person, aufgrund der, wie man es sieht. Also die Person wird dann praktisch aufgefordert, gewisse Übungen vorzuführen vor dem System. Und daraus kann man dann ableiten, ob gewisse Probleme sich in diesem Skelettapparat entwickeln werden. Daraus kann man dann therapeutische Empfehlungen auch geben, zum Beispiel sagen, in der Physiotherapie oder im Fitnessstudio gewisse Übungen zu führen, um dem entgegenzuwirken. Das ist so ein Beispiel. Jetzt sind wir gerade bei der Medizin. Ich will aber nochmal zurück zum Film, weil besonders spannend ist natürlich, dass bei Ihnen mehr oder weniger direkt ja schon Hollywood angeklopft hat. Was hat denn Ihre Forschung mit dem diesjährigen Eröffnungsfilm der Berlinale zu tun? Das war von Tim Tickwart, „Das Licht“. Genau, genau. Ja, da muss man ein bisschen mehr ausholen. Also wir haben eine Forschungsrichtung, die wir, ich würde sagen, wahrscheinlich mitbegründet haben, ist die Kombination aus neuronalen Netzen und klassischem Computergrafikverfahren, um Bilder zu synthetisieren. Also klassische Computergrafik Rendering nennt man das. Ja, Bilderzeugung ist ja im Wesentlichen eigentlich eine Simulation der Physik der Szene. Es ist eigentlich eine Simulation der Lichtausbreitung. Es ist eine sehr komplexe Berechnung, auch sehr aufwendig. Und wir haben uns angeschaut, wie man mit neuronalen Netzen alternative Formulierungen für dieses sehr schwierige Problem finden kann. Und da hatten wir zum Beispiel uns angeschaut, wie man das speziell auch für Gesichter machen kann. Das hatten wir praktisch ein Grundlagenforschungsprojekt, hatten wir auch veröffentlicht auf einer unserer großen Konferenzen, auf der SIGGRAPH. Und dieses Ergebnis wurde gesehen von einem Regisseur aus Hollywood, das ist Scott Mann. Und der hat uns angeschrieben und hat gesagt, das ist ja eine sehr interessante neue Möglichkeit, die sich daraus ergeben kann. Und er hatte damals gesagt, also ich glaube, wenn wir das weiterentwickeln, dann wird das wirklich die Filmproduktion revolutionieren können. Und aus dieser ursprünglichen Idee ist dann eine Firma entstanden: Flawless AI. Also praktisch basierend auf Ideen, die wir publiziert haben. Und was die Firma macht, ist, sie entwickelt eine neue Technik, mit der man Visual Dubbing machen kann. Das heißt, man kann die, also man kennt das ja, amerikanische Filme beispielsweise, bei uns sind immer synchronisiert. Das heißt, wir haben einen neuen Synchronsprecher, der einen neuen Ton einspricht, der aber oft nicht ganz konkurrent oder kohärent ist mit dem eigentlichen Bild, was man sieht. Weil die Person in dem Video natürlich dann Englisch spricht. Und was die Technik leisten kann, ist, dass sie praktisch die Mundbewegung der Person so verändern kann, dass sie zu der neuen Sprache passt. Und diese Technik wurde jetzt auch schon eingesetzt. Also der erste Film ist auch schon in amerikanischen Kinos: „Watch the Skies“ heißt der, der mit dieser Technologie bearbeitet wurde. Und der Eröffnungsfilm von Tom Tikua, „Das Licht“, wird jetzt von Flawless AI für den amerikanischen Markt visual gedubbt werden. Man kann ja mittlerweile eigentlich auch durch KI ganz gut Stimmen imitieren. Das heißt, eigentlich wären vielleicht nicht mal die Synchronsprecherinnen für diese Filme synchron nötig. Oder man könnte ja eigentlich fast die Stimme der Originalschauspielerin nehmen und dann in Englisch sprechen lassen und mithilfe von Flawless AI eben noch irgendwie die Mundbewegung anpassen, die Mimik. Also das ist tatsächlich explizit nicht das Ziel von dem Modell, auch wie Flawless AI arbeitet. Das war insbesondere auch Scott Mann von Anfang an wichtig. Weil es durch neue Technologien gibt es neue Möglichkeiten und natürlich auch Bedenken, das ist irgendwo auch verständlich, auch bei den Schauspielern international gab, wie wird diese neuen technischen Möglichkeiten, die da entstehen, was könnte der Einfluss auch auf ihre Arbeit davon sein? Scott und Flawless AI waren von Anfang an auch sehr stark involviert in Gespräche, auch mit der Screen Actors Guild in den USA. Und das Modell von Flawless ist ein bisschen anders. Hier ist es so, dass praktisch die Schauspieler die Möglichkeit haben, sich bei Flawless zu registrieren und immer auch informiert werden, wenn eine von ihren Szenen bearbeitet wird. Das heißt, sie sind in den Prozess eingebunden, sie sind auch sozusagen in den Prozess des Einkommens, wie wird Einkommen für die Schauspieler generiert, praktisch von Anfang an eingebunden. Können dann auch gewisse Dinge erlauben oder nicht erlauben, können zusätzliche Daten auch zur Verfügung stellen. Das heißt, sie sind mit dieser neuen Technik in diesen Prozess sehr stark eingebunden und partizipieren dann auch von Anfang an an dem kreativen Prozess. Das heißt, sie könnten auch sagen, im Zweifelsfall sagen: Also nee, in dieser Szene, da stimmt meine Mimik jetzt doch aber überhaupt nicht mit mir persönlich überein, so möchte ich nicht aussehen. Zumindest genau das ist da. Und die technische Möglichkeit dafür ist gegeben in dem gesamten Prozess, wie die Firma aufgesetzt ist und die Technologie aufgesetzt ist. Genau. Ja, wir haben ja schon mitbekommen, also in den, ja, ich glaube, das ist mittlerweile auch schon wieder zwei Jahre her, gab es viele Proteste in Hollywood. Da haben sich viele Menschen, die da in der Filmindustrie arbeiten, große Sorgen gemacht über den Umgang mit KI in der Filmindustrie. Und da sind mittlerweile auch tatsächlich Regeln festgeschrieben worden in den Tarifverträgen oder werden jetzt, da ist man auf jeden Fall sehr viel feinfühliger mit geworden. Aber ja, wenn ich mir so anschaue, was sie in der Forschung betreiben, dann kann ich das ein Stück weit auch verstehen. Sie haben gerade schon ein bisschen angesprochen, eben dass man dieses Overdubbing zum Beispiel verbessern kann. Was Sie eben ganz kurz schon erwähnt haben, ist, dass man mittlerweile ja tatsächlich dank Ihrer Forschungsergebnisse die Mimik von einer Person in Echtzeit auf das Gesicht einer anderen Person übertragen kann. Können Sie das nochmal ein bisschen genauer erklären, wie sowas eigentlich funktioniert? Also das muss man vielleicht nochmal so ein bisschen eingrenzen. In Echtzeit, also auch die Technologie von Flawless AI ist jetzt nichts, was wirklich in Echtzeit funktioniert. Also das ist sozusagen bei dem Qualitätsanspruch, den auch die Filmbranche hat und auch den Bildgrößen, die man ja auch rechnen muss, um dann letztlich auch den großen Screen im Kino zu bedienen, ist das jetzt nichts, was wirklich in Echtzeit funktioniert. Da geht es wirklich um die visuelle Qualität, auch pro Frame. Aber es gibt Techniken, die angeschaut wurden, wo man auch in Echtzeit versuchen kann, sozusagen ein Gesicht einer Person zu tracken und auf ein anderes Gesicht zu übertragen. Und genau diese Techniken gibt es auch. Daran wird auch geforscht. Aber das Grundlagenproblem, was dahinter steht, ist ja sozusagen, was eigentlich die richtige Formulierung auch, wie man aus einem Einzelbild nochmal die Schwierigkeit ist ja, dass es hochgradig unterbestimmt ist, auch Gesichtsparameter zum Beispiel rekonstruieren kann. Und man kann solche Techniken dann zum Beispiel auch einsetzen im Bereich virtueller Realität, im Bereich Teleconferencing, wo man heute halt, heute machen wir praktisch eine Telekonferenz über ein Video. In Zukunft könnte das auch eine immersive Telekonferenz sein, wo man praktisch ein 3D-Avatar der Person, die vielleicht 1000 Kilometer weg ist, vor sich sieht und damit nochmal ein viel besseres Kommunikationsgefühl hat, weil es eher das Gefühl hat, dass man direkt vor der Person steht. Das ist also auch der Hintergrund, warum man sich diese Techniken anschaut. Und man hat durch auch KI- Techniken natürlich die Möglichkeit, nun auch mit weniger Sensorik sehr hochqualitativ genau diese Avatare, sage ich jetzt mal, zu rendern. Das heißt, am Ende des Tages geht es auch hier wieder darum, dass die KI besser unsere Mimik zu lesen lernt, richtig? Und damit kann weitergearbeitet werden. Eine Sache, die mir spontan einfällt: Wenn wir irgendwann selbstfahrende Autos haben, werden dann könnte das Auto vielleicht, weiß ich nicht, erkennen, dass ich gerade übermüdet bin und vielleicht nicht weiterfahren sollte? Korrekt, korrekt. Genau. Also es ist ja so, dass viele, auch wenn wir miteinander kommunizieren, ist es ja immer multimodal. Also viele Gemütszustände zum Beispiel zeigen sich in gewissen feinen Gesichtsausdrücken, also die Frequenz, dass der Liedschlag ist. Genau. Und diese Dinge kann man dann sozusagen auch besser einsetzen, um genau solche potenziell gefährlichen Situationen auch zu erkennen. Und gibt es noch ein paar konkrete Beispiele, wo jetzt diese konkrete, ganz genaue Erforschung der Mimik und der Gestik von Menschen bei KI dann zum Einsatz kommen kann oder KI-Systeme helfen kann? Genau, ja. Also man kann ja nochmal einen Schritt weiter denken. Also heute, wenn ich jetzt große Sprachmodelle, Large Language Models, mir anschaue, die ja praktisch auch nochmal so ein transformatorischer Moment in der Forschung insgesamt waren. Wenn man jetzt drüber nachdenkt, wir haben neue Techniken, die zum Teil auch von uns mitentwickelt werden, um sehr detailliert auch virtuelle Avatare darzustellen. In Zukunft könnte man sich vorstellen, statt einen Textinterface oder einen Sprachinterface mit einem Computersystem könnte meine Interaktion auch sein mit einem virtuellen Avatar, der praktisch eine Art Frontend von diesem KI-System hinten dran ist, mit dem ich dann praktisch wie natürlichsprachig mit der Person interagieren kann. Und dieser Avatar kann auf der einen Seite selbst genau die Kommunikationssignale senden, also Mimik, Gestik, die auch ein Mensch zeigen würde, und gleichzeitig kann er aber auch interpretieren, wie der Mensch, der mit diesem System dann kommuniziert, eben also nicht nur die Sprache, sondern eben auch die Gestik und Mimik verstehen. Und damit kann man nochmal eine sehr viel effektivere Interaktion mit diesen Systemen in Zukunft neue Arten der Interaktion mit diesen Systemen entwickeln. Stellen Sie sich mal einen virtuellen Tutor in der Zukunft vor, personalisierter Tutor, der Ihnen gewisse Skills beibringen kann. Präsentation, er kann schauen, wie kann eine Präsentation von Ihnen verbessert werden. Er kann Sie praktisch anschauen, wie Sie das am Beispiel vorführen und könnte dann praktisch Tipps geben, wie Sie das machen könnten, aber das eben nicht über Text, sondern tatsächlich über eine Art virtuelles Frontend, was wirklich ein virtueller Avatar ist, der über alle diese Kommunikationskanäle mit Ihnen interagieren kann. Das klingt tatsächlich ziemlich futuristisch immer noch für mich. Aber wir scheinen nicht mehr ganz so weit davon entfernt zu sein. Eine Sache, von der wir auf jeden Fall noch nicht, also bei der wir tatsächlich mittlerweile schon gelandet sind, ist, dass mittlerweile eben auch die Mimik einer Person, vielleicht noch nicht super einfach, aber relativ. Einfach eben auch manipuliert werden kann. Also, Deepfakes sind ein ziemlich großes Thema und so eins der Parade-Negativbeispiele, was KI-Anwendungen betrifft. Deepfakes helfen, Desinformation zu verbreiten. Da wird Politiker:innen zum Beispiel sehr gerne etwas in den Mund gelegt, und solche Videoclips verbreiten sich dann über Social Media. Oder auch ein Negativbeispiel: Persönlichkeitsrechte werden verletzt, wenn zum Beispiel pornografische Deepfakes in Umlauf kommen. Da gab es auch schon einige prominente Beispiele, zum Beispiel von Taylor Swift. Da haben sich Deepfakes von ihr auf der Plattform X verbreitet. Ich habe mich gefragt, wie es Ihnen eigentlich geht. Sie forschen genau zu solchen Anwendungen. Wie geht es Ihnen eigentlich, wenn Sie solche Meldungen in den Medien mitbekommen? Also, um das vielleicht nochmal zu sagen: Wir forschen nicht zu solchen Anwendungen. Wir forschen zu technischen Anwendungen, Technologien, die es ermöglichen, in neuen Arten und Weisen Modelle der Welt zu bauen und eben dann auch zu simulieren. Was Sie beschrieben haben, das ist natürlich ein Use Case, da brauchen wir gar nicht diskutieren. Das ist natürlich komplett abzulehnen und ist natürlich auch eine Sache, die uns auch in der Forschung besorgt. Aber ich bin mir sicher, man denkt so etwas wahrscheinlich auch schon mit, wenn man in so eine Richtung forscht, oder nicht? Absolut. Also ich denke, es ist ja so, dass wenn man ein neues Verfahren entwickelt und einmal die Möglichkeiten sieht, natürlich kommen diese Fragen auch auf. Das ist ja auch unsere Aufgabe als Forscher. Wir entwickeln keine Produkte hier, sondern wir entwickeln Potenziale, wir entwickeln Erkenntnisse. Und auf der einen Seite möchten wir damit natürlich aufzeigen, was mit diesen in vielen Fällen ja heute generativen KI-Systemen möglich ist. Und natürlich auch darüber informieren, was mögliche Risiken sind. Beides, denke ich, ist eine wichtige Sache. Das haben wir auch seit vielen Jahren getan. Ich denke, das Wichtige ist, dass wir auch in Zukunft immer die Möglichkeit haben müssen zu verstehen, was können diese Systeme und was können sie nicht. Weil letztlich ist diese Frage, oder genau zu sagen, das kann das System oder kann es nicht, auch die Grundlage dafür, um auch in Zukunft immer sozusagen sagen zu können: Dieser Inhalt, den ich jetzt gerade sehe, ist der generiert oder nicht? Das heißt also, ich praktisch die Möglichkeit habe, immer die Wahrheit noch zu erkennen. Das ist das eine. Und das ist die gleiche Forschung, die wir machen, die praktisch genau erkennt oder beschreibt, was die Möglichkeiten dieser Systeme sind. Das ist auf der einen Seite die Voraussetzung, sozusagen um diese vielen Möglichkeiten, die dieses Technik bietet, zu schaffen, aber eben auch genau, um diese kritischen oder in Einzelfällen einfach komplett illegalen und komplett abzulehnenden Anwendungen auch sozusagen einzudämmen. Das bringt mich vielleicht auch nochmal zu einer persönlichen Frage, die ich als Journalistin habe. Also mittlerweile lässt sich ja auch mit Tools wie SORA von OpenAI täuschend echtes Videomaterial produzieren, auch Deepfakes. Gut, die sind auch nicht alle so ganz gut gemacht, aber relativ gut gemacht. Wie können wir denn in Zukunft eigentlich sicherstellen, irgendwie noch zu erkennen, was in den Medien echt ist und was nicht? Gibt es da schon irgendwelche Ideen? Ja, natürlich. Also das ist genau das, was ich meinte. Also wenn ich die Frage stelle: Ist das Video oder das Bild, was ich gerade gesehen habe, generiert oder nicht?, braucht man Techniken, die diesen Unterschied erkennen können. Und um solche Techniken zu entwickeln, braucht man eben genau das Verständnis der Methoden, die auch für die Erzeugung praktisch verwendet werden, weil man dann eben auch genau mathematisch beschreiben kann, das sind Dinge, die sie nicht können. Oder da gibt es Effekte, die das, was das synthetische Bild von dem echten Bild unterscheidet. Und das ist genau die Grundlage auch dafür, um dann Detektionsverfahren zu entwickeln, was wir auch in unserer Forschung getan haben. Also auf der einen Seite wird es in Zukunft sehr viel wichtiger sein, die Möglichkeit zur Verfügung zu stellen, die Authentizität von Medien zu überprüfen. Auf der anderen Seite, was ich aber auch schon sehr oft gesehen habe, ist, dass jetzt zum Beispiel für eine sehr schnelle Visualisierung eines technischen Zusammenhangs zum Beispiel auch in den Medien sehr schnell mit KI auch Videos oder Erklärvideos erzeugt werden. Also das ist irgendwie zweischneidig in gewisser Weise. Man hat sozusagen die kreative Möglichkeit, die man auch einsetzt, um sozusagen in Medien auch Dinge besser erklären zu können. Und man hat auf der anderen Seite natürlich, genau wie Sie beschreiben, auch die Herausforderung, dass man in Zukunft auch journalistisch immer in der Lage sein muss, die Authentizität der Daten zu gewährleisten. Für beides braucht es eben auch starke Grundlagenforschung und auch viel Transparenz und Aufklärung insgesamt in der Bevölkerung. Absolut, ja. In beide Richtungen. Also sowohl was die Gefahren betrifft, aber auch was die Möglichkeiten betrifft. Weil vieles davon, auch was die Möglichkeiten betrifft, auch vielleicht gar nicht so direkt klar ist. Genau, absolut. Um da nochmal ganz konkret vielleicht einen Lösungsvorschlag zu finden: Ich glaube, laut AI Act muss in Zukunft auch generiertes KI-generiertes gekennzeichnet werden oder was auch aus meiner Sicht, also in allen Anwendungen, die wir uns für diese Technologien vorstellen, eigentlich auch überhaupt kein Problem ist. Also in kreativen Anwendungen, bei der Synthese von Videos in Filmen, ist ja überhaupt kein Problem, sozusagen in diesen Anwendungsfällen genau zu kennzeichnen, dass wurde modifiziert oder vielleicht auch so durch ein Hidden Watermarking. Es muss ja jetzt nicht durch ein Label im Bild sein, aber dass man es im Prinzip immer klar authentifizieren kann. Es gibt auch andere Überlegungen, wie man sozusagen das noch weiter sicherstellen kann, dass man authentisches Bildmaterial zum Beispiel hat. Man kann auch über technische Lösungen schon auf Kameraebene nachdenken, dass man auf Kameraebene praktisch schon eine gewisse Kodiertechnik einsetzt, um auch authentisch erkennen zu können, das wurde jetzt mit dieser Kamera, diesem Modell erzeugt. Also man hat auf verschiedenen Ebenen gibt es da auch technische Möglichkeiten, die man in Zukunft anschauen kann, genau um das zu tun. Und da ist eben auch wichtig, nochmal das Grundlagenforschungsverständnis, um zu sehen, wie man diese Techniken am besten und effektivsten einsetzen kann. Wenn wir gerade über Verständnis sprechen, dann würde ich Ihnen eigentlich auch ganz gerne nochmal eine persönliche Frage stellen. Man merkt schon, viele Menschen sind besorgt. Also vielleicht erleben Sie das eben auch irgendwie im Freundeskreis oder in der Familie, was so die rasante Entwicklung von KI angeht. Wie begegnen Sie diesen Menschen? Ich begegne ihnen, indem ich zunächst mal einfach das Verständnis und auch praktisch erkläre, was die Technik kann und was sie nicht kann. Also am Ende ist es ja auch, wenn es um regulatorische Fragen geht, was die neuen Technologien betrifft, ist das natürlich ein gesellschaftlicher Prozess, wo alle sozusagen ihre Ansichten dazu und wie die Technologie in Zukunft eingesetzt werden soll, einbringen. Wir als Wissenschaftler, meine Aufgabe ist es sozusagen, die Möglichkeiten und die technischen Fähigkeiten auch auf mögliche Gefahren und Potenziale hinzuweisen. So sehe ich meine Rolle eben in diesem Prozess. Ich begegne dem, indem ich auf der einen Seite, wenn es um bestimmte Gefahren geht, natürlich auch über diese Gefahren spreche und wo wir da heute stehen, aber dann eben auch zeige, was die Potenziale dahinter sind. Ich will mal ein konkretes Beispiel geben. Das Problem ist ja, wir müssen ein bisschen unterscheiden oft auch zwischen der Technologie selber oder der Methodik und ihrer Anwendung. Und wenn man jetzt sagen würde, nehmen wir mal ein generatives KI-Verfahren, was sind die Potenziale? Auf der einen Seite haben Sie gesagt, es gibt Gefahr mancher Anwendungen von generativen KI-Verfahren, dass man es für Videos einsetzen könnte, die Missinformation machen. Das ist eine absolute berechtigte Sorge. Auf der anderen Seite kann ich die gleiche darunter liegende Technologie auch einsetzen, um aus Daten oder aus dreidimensionalen Daten von Proteinen sozusagen gute Vorhersagen über deren Faltungsstruktur zu machen. Dann habe ich eine Technologie, die AlphaFold heißt, die den Nobelpreis für Chemie erhalten hat. Also das ist der Raum, in dem wir uns bewegen. Und ich glaube, es ist wichtig, dass man all diese Aspekte versteht. Und dann haben wir in Zukunft eben auch die Möglichkeit, genau zu entscheiden, wo wollen wir diese Technik eingesetzt sehen, was wollen wir in Zukunft nicht haben. Vielleicht nochmal zurückkehrend zum Anfang dieses Interviews, wo wir ein bisschen darüber gesprochen haben, wie es für Sie so losging. Sie hatten bestimmt damals schon eine Vision von, wo Sie irgendwann mal hin möchten mit Ihrer Forschung. Vielleicht etwas, wo Sie gedacht haben, ob das irgendwann möglich sein wird. Ich mache mich da jetzt auf den Weg dahin. Ich weiß nicht, ob es so etwas wirklich gab für Sie, aber ich frage mich, wenn ja, wie nah sind wir an dieser Vision? Wie weit sind Sie da schon gekommen? Also, es wäre sicher falsch zu sagen, es gibt diese eine Vision, die ich sozusagen von Anfang meines Doktorats jetzt verfolgt habe. Aber es gibt sicher und das ist, glaube ich, bei vielen Wissenschaftlern, die später im technischen Bereich in der Forschung aktiv sind, gibt es gewisse Zukunftsbilder, die zum Beispiel auch aus der Science-Fiction-Literatur stammen. Wo man dann sagt: „Mensch, das sind doch Computersysteme, mit denen ich wirklich in natürlicher Sprache interagieren kann.“ Oder virtuelle Räume, wo ich praktisch nicht mehr unterscheiden kann: „Bin ich jetzt in einem echten oder einem virtuellen Raum?“ Neue Roboter- Systeme, die wirklich menschenähnlich mit Menschen interagieren können. Das sind sicher so einzelne Bilder, einzelne Szenarien, die man sich vorstellen kann, die einen motivieren, zu sehen, das ist eine interessante Zukunftsvision. Und gewissermaßen denke ich, haben wir in unserer Arbeit Elemente davon angeschaut. Also wenn wir heute sehr realistische virtuelle Avatare darstellen können, dann ist das sicher, dann kommt das dem Bild nahe. Es gibt ja zum Beispiel die Vision des Holodecks aus einer bestimmten Science-Fiction-Umgebung. Und das ist schon spannend zu sehen, dass wir heute mit neuen KI-Techniken tatsächlich die Möglichkeit haben, zumindest in einem sehr eingeschränkten, also als einzelnen Aspekt sozusagen, doch schon näher heranzukommen an das, was man in dieser Vision vielleicht mal gesehen hat. Das heißt, Sie sind schon ziemlich weit gekommen, aber es bleibt noch viel zu tun, wenn ich das richtig verstanden habe. Absolut, ja. Absolut. Ich bin auf jeden Fall sehr gespannt auf alle weiteren Entwicklungen. Vielen lieben Dank, dass Sie uns hier einen Einblick gegeben haben in Ihre Forschung. Ich danke Ihnen, es war mir eine Freude. Für alle, die keine Trackies sind: Christian Theobald hat hier von Holodecks gesprochen. Die kommen in der Science-Fiction-Serie Star Trek vor und werden an Bord von Raumschiffen genutzt. Also virtuelle Räume, in denen mit Hologramm-Umgebungen simuliert werden können. Damit bestätigt Christian Theobald so ein bisschen, was ich Forschenden im Bereich von KI immer unterstelle, nämlich eine gewisse Freude an Science-Fiction und der Vision, vielleicht die ein oder andere erdachte Erfindung aus der Filmwelt irgendwann in der realen Welt umsetzen zu können. Nächste Woche geht es hier bei Ach Mensch um Roboter in Roben und darum, wie KI im Recht eingesetzt werden könnte. Ich freue mich, wenn ihr dann wieder dabei seid. Und wenn ihr keine Folge verpassen möchtet, dann könnt ihr am besten diesen Podcast abonnieren. Produziert hat diese Folge Tim Schmutzler und ich bin Jessi Jus. Schön, dass ihr dabei wart. Bis zum nächsten Mal.