Dr. Alexander Schell
Technische Universität München
Advancing Sequential AI Models: New Mathematics to Bridge Stochastic Dynamics and Machine Learning
Mein Forschungsvorhaben konzentriert sich auf die mathematische Entwicklung und das Verständnis von sequenzverarbeitenden Algorithmen des maschinellen Lernens,im Folgenden Sequenzmodelle genannt. Diese Modelle analysieren zeitlich geordnete Datenpunkte, wie z.B. Finanzdaten, Verkehrsdaten, Wetterverläufe oder Sprachsignale, um auf Basis vergangener Beobachtungen statistisch fundierte Vorhersagen über zukünftige Entwicklungen und andere relevante Eigenschaften dieser Datenreihen zu treffen. Sequenzmodelle sind ein integraler Bestandteil moderner generativer KI-Algorithmen und werden in verschiedenen Anwendungsbereichen wie der Sprachverarbeitung, der Proteinstrukturvorhersage oder bei der Modellierung dynamischer Systeme intensiv genutzt.
Das übergeordnete Ziel meines Projektes ist es, mit Methoden aus der stochastischen Dynamik und der Rough-Paths-Theorie unter anderem die sogenannten “latenten Strukturen” — also interne, nicht direkt sichtbare, oft geometrisch kodierte Eigenschaften der Modelle, die durch die Dynamik der Daten bedingt sind und das Verhalten sowie die Vorhersagen der Modelle beeinflussen — einer breiten Klasse von Sequenzmodellen zu analysieren, um deren Funktionsweise besser zu verstehen und gezielt zu verbessern. Insbesondere sollen präzise mathematische Ansätze und Werkzeuge entwickelt werden, die diese Modelle konzeptionell besser handhabbar und interpretierbar machen sowie ihre Fähigkeit und Verlässlichkeit bei der Verarbeitung komplexer, unsicherer Daten quantitativ erfassen. Die gewonnenen Erkenntnisse sollen dazu beitragen, die Genauigkeit und Robustheit der untersuchten Modelle mathematisch differenziert abzubilden und messbar zu steigern, damit sie unter realistischen Bedingungen kontrolliert konsistent bleiben und widerstandsfähiger gegenüber unerwarteten Störungen und Modellabweichungen werden. Ein besonderer Schwerpunkt liegt dabei auf der Entwicklung rigoros abgeleiteter Garantien, die die Stabilität und Effizienz der Modelle in praxisnahen Szenarien beschreiben und sicherstellen.
Langfristig zielt das Projekt darauf ab, durch die Kombination von maschinellem Lernen und stochastischer Dynamik ein tieferes mathematisches Verständnis von Sequenzmodellen zu entwickeln und dadurch deren Einsatzmöglichkeiten in verschiedenen Bereichen der Künstlichen Intelligenz durch präzise Qualitätsgarantien signifikant zu verbessern.