Maschinelles Lernen

Definition und Abgrenzung

Maschinelles Lernen ist eines der wichtigsten Teilgebiete der Künstlichen Intelligenz. Ein Computerprogramm lernt aus Erfahrung bezogen auf eine bestimmte Klasse von Aufgaben, wenn sich seine Performanz bezogen auf die Aufgabenklasse mit zunehmender Erfahrung verbessert ^[1]. Ergebnis eines Lernprozesses ist ein Modell (auch Hypothese genannt), das durch Generalisierung über Eigenschaften in den Daten entsteht.

Erfahrung wird in Form von Trainingsdaten präsentiert, zum Beispiel als Liste von Merkmalen (wie Alter, Geschlecht, Bildungsstand, Vorerkrankungen) oder als Bilder oder Texte. Typische Aufgaben sind:

die Vorhersage von Ereignissen, zum Beispiel, eine bestimmte Krankheit zu bekommen, oder der Ausfall einer Maschine,
die Erkennung von bestimmten Objekten oder Klassen, zum Beispiel, eine Katze auf einem Bild zu erkennen, oder einen Defekt auf einem Werkstück
die Auswahl von Aktionen, etwa eines Spielzugs bei Go oder einer bestimmten Aktion eines Roboters.

Die Performanz wird ermittelt als Schätzwert, wie viele oder wie große Fehler das gelernte Modell machen wird, wenn es auf neue Daten (derselben Aufgabenklasse) angewendet wird.

Drei große Klassen von Ansätzen des maschinellen Lernens sind: überwachtes Lernen (supervised learning), unüberwachtes Lernen (unsupervised learning) und Verstärkungslernen (reinforcement learning). Bei Weitem die meisten Algorithmen und Anwendungen sind im Bereich des überwachten Lernens. Hier wird aus einer Menge von Trainingsdaten D, die aus einer (meist unendlichen) Menge X stammen und bei denen die korrekte Antwort C bekannt und mit angegeben ist, eine Funktion f approximiert, die dann für unbekannte Daten aus X eine Antwort ausgibt: f: X → C. Besteht C nur aus zwei Werten, handelt es sich um Konzeptlernen (ja, das ist eine Katze/Krankheit K bzw. nein, das ist keine Katze/nicht Krankheit K). Umfasst die Menge C mehrere Möglichkeiten (etwa verschiedene Tierarten), spricht man von Klassifikationslernen. Ist C ein Zahlenwert (wie Größe oder Geldbetrag), spricht man von Regressionslernen. Beim unüberwachten Lernen werden Daten nach ihrer Ähnlichkeit in Gruppen zusammengefasst. Beispielsweise könnten Tierarten oder Verkehrsschilder aufgrund von Merkmalen oder ihrer optischen Erscheinung gruppiert werden. Kunden könnten nach bestimmten Merkmalen in Gruppen eingeteilt werden. Während bei den beiden genannten Ansätzen alle Daten auf einmal vorliegen müssen, bevor ein Modell trainiert wird, basiert Verstärkungslernen auf einem kontinuierlichen Lernprozess, bei dem ein Modell bezogen auf den rückgemeldeten Erfolg seiner Antwort angepasst wird. So wird die Strategie zur Auswahl von geeigneten Spielzügen etwa bei Go nach Misserfolg korrigiert.

Maschinelles Lernen kann durch verschiedene Arten von Algorithmen umgesetzt werden. Bekannt und viel genutzt sind vor allem: Entscheidungsbaumalgorithmen, Random Forests, Bayessches Lernen, Support Vector Machines und künstliche neuronale Netze^[2]. Die Algorithmen unterscheiden sich vor allem dadurch, wie die gelernten Modelle repräsentiert werden. Entscheidungsbäume, Random Forests und Bayessche Modelle gehören zu den symbolischen oder interpretierbaren Ansätzen des maschinellen Lernens. Das heißt, die gelernten Modelle sind im Prinzip von Menschen lesbar, ähnlich wie herkömmliche Software. Support Vector Machines und neuronale Netze sind dagegen nicht symbolische, statistische Ansätze, bei denen die gelernten Modelle Blackboxes sind. Die Eingabeinformation wird auf so komplexe Art miteinander verrechnet, dass auch die Modellentwickler selbst nicht nachvollziehen können, wie genau eine Entscheidung zustande kommt.

Aktuell finden vor allem tiefe neuronale Netze Beachtung. Unter Deep Learning werden verschiedene Ansätze von künstlichen neuronalen Netzen zusammengefasst ^[3], die deutlich komplexer sind als die klassischen neuronalen Netze, die seit den 1990er-Jahren entwickelt werden. Klassische neuronale Netze bestehen meist aus drei Schichten von künstlichen Neuronen, die von der Eingabeschicht zur Ausgabeschicht vorwärts miteinander verbunden sind. Viele Deep-Learning-Architekturen ermöglichen sogenanntes end-to-end learning, also das Lernen direkt aus Rohdaten. Die meisten klassischen Lernverfahren, auch die klassischen neuronalen Netze, benötigen dagegen Merkmale als Eingabe. In vielen Bereichen liegen Daten direkt in Form von Merkmalen – als Tabelle – vor. Möchte man aber aus Bildern, Texten oder Zeitreihendaten lernen, müssen bei klassischen Verfahren zunächst Merkmale aus den Rohdaten extrahiert werden. Diese Anforderung stellte den Flaschenhals für die Anwendung von maschinellem Lernen dar, die durch Deep-Learning-Ansätze wie Convolutional Neural Networks überwunden werden konnte.

Geschichte

Maschinelles Lernen war bereits seit Beginn der Forschung zu Künstlicher Intelligenz eines der zentralen Gebiete. Das erste dokumentierte lernende Programm war ein Programm zum Lernen des Strategiespiels Dame und wurde von Arthur Samuel (Mitarbeiter bei IBM) im Jahr 1952 realisiert. Im Jahr 1960 hat Donald Michie – der Vater der Künstlichen Intelligenz in Großbritannien – einen ersten Ansatz zum Verstärkungslernen umgesetzt, die Machine Educable Noughts And Crosses Engine MENACE. In den 1980er-Jahren dominierten symbolische Ansätze wie Entscheidungsbaumverfahren. Es wurden Ansätze des erklärungsbasierten Lernens entwickelt, bei denen Hintergrundtheorien in den Lernprozess einfließen konnten. Der KI-Pionier Patrick Winston lieferte grundlegende Arbeiten zum relationalen Lernen, um strukturelle Beziehungen zu identifizieren, wie visuelle Konzepte (ein Torbogen besteht aus mindestens zwei Pfeilern, die ein Dach tragen und zwischen denen ein Mindestabstand besteht, siehe Vorlesungsvideo von 2010) oder chemische Strukturen. Ende der 1980er-Jahre begann die Forschung zu mehrschichtigen künstlichen neuronalen Netzen, die mit Backpropagation trainiert werden. Backpropagation als Methode zur Minimierung von Fehlern wurde von David Rumelhart und Geoffrey Hinton (die beide Psychologie studiert haben) eingeführt. Bereits in den 1950ern wurde mit dem Perzeptron die Simulation eines einzelnen Neurons realisiert. Da mit diesem Ansatz aber nur lineare Funktionen gelernt werden konnten, wurde die Forschung an neuronal inspirierten Ansätzen zunächst zugunsten der symbolischen Lernansätze aufgegeben. Durch die unter anderem aufgrund der im Sammelband Parallel Distributed Processing (PDP) ^[4] publizierten Arbeiten entstandene Faszination von künstlichen neuronalen Netzen kamen die Vertreter der symbolischen Künstlichen Intelligenz, so auch der symbolischen Ansätze des maschinellen Lernens, unter Rechtfertigungsdruck. Wesentliche Argumente, die gegen neuronale Netze als Modell für menschliche Intelligenz aufgeführt wurden ^[5], waren, (a) dass (die damaligen) neuronalen Netze nur für sehr einfache Aufgaben anwendbar waren, etwa das Bilden der Vergangenheitsform bei englischen Verben, aber nicht für komplexe kognitive Aufgaben wie Schachspielen, und (b) dass neuronale Netze Eingaben uninterpretiert verarbeiten. Ein neuronales Netz, das darauf trainiert ist, Verkehrszeichen zu erkennen, wird bei der Eingabe eines Tierbilds genau so eine Ausgabe berechnen. Es wird nicht erkannt, dass die Eingabe zu einer anderen semantischen Kategorie gehört.

Eine erste Buchpublikation, die den Begriff Machine Learning im Titel hatte, erschien 1983 – herausgegeben von Ryszard Michalski, Jaime Carbonell und Tom Mitchell ^[6]. Dort finden sich die wichtigsten Ansätze der frühen symbolischen Lernverfahren. Viele der Ansätze hatten explizit das Ziel, Eigenschaften des menschlichen Lernens nachzubilden. Entscheidungsbaumverfahren wurden von psychologischen Arbeiten zum Konzeptlernen^[7] inspiriert. Das erste Lehrbuch zu maschinellem Lernen wurde 1997 von Tom Mitchell verfasst ^[1]. Dort sind Entscheidungsbäume, neuronale Netze, Bayessches Lernen, induktive logische Programmierung, genetische Algorithmen und Verstärkungslernen detailliert erklärt. Noch nicht enthalten sind Support Vector Machines als eines der erfolgreichsten Ansätze der frühen 2000er sowie Random Forests als effiziente Verallgemeinerung von Entscheidungsbaumverfahren, die etwa zeitgleich entstanden.

Ende der 1990er-Jahre wurden symbolische Ansätze mehr und mehr von Ansätzen des statistischen maschinellen Lernens verdrängt. Neben der in der KI verwurzelten Forschung zu maschinellem Lernen entstand eine zweite Forschungsgemeinschaft, die sich eher an aus der Signalverarbeitung stammenden Ansätzen der Mustererkennung (pattern recognition) orientierte und bei denen statistische und neuronale Ansätze im Fokus stehen. Die 2000 gegründete Onlinezeitschrift Journal of Machine Learning Research (JMLR) hob sich entsprechend von der bereits 1986 entstandenen Zeitschrift Machine Learning ab. Neben der International Conference on Machine Learning (ICML, seit 1980, zunächst als Workshop) und der European Conference on Machine Learning (ECML, seit 1986, zunächst als Working Session) gewann die Tagung Neural Information Processing Systems (NIPS, seit 2019 NeurIPS) immer mehr an Bedeutung. Zum meistverwendeten Lehrbuch wurde das 2006 erschienene Pattern Recognition and Machine Learning ^[8], mit dem ausschließlichen Fokus auf statistischem Lernen.

Im Kontext der Forschung zu neuronalen Netzen wurden seit etwa 2000 Architekturen entwickelt, die man unter dem Begriff Deep Learning subsumiert ^[3]. Außerhalb der Wissenschaft wuchs das Interesse an Deep Learning etwa ab 2012. Bei der ImageNet Challenge, bei der Bilder für etwa 1000 Konzepte klassifiziert werden, gewann 2012 erstmals kein Ansatz aus der Bildverarbeitung, sondern ein Ansatz des maschinellen Lernens. Das Convolutional Neural Netwok (CNN) AlexNet – benannt nach Alex Krizhevsky, einem Doktoranden von Geoffrey Hinton – verbesserte das Ergebnis des vorangegangenen Wettbewerbs um mehr als 10 Prozent und war nicht auf Extraktion von Merkmalen aus den Bildern angewiesen. Weitere vielbeachtete Erfolge von Deep Learning sind der Sieg von AlphaGo gegen den weltbesten Go-Profi sowie Systeme zur maschinellen Übersetzung wie DeepL oder GPT-3 (Generative Pre-Trained Transformer). Im Jahr 2018 wurden Yann LeCun, Yoshua Bengio und Geoffrey Hinton mit dem wichtigsten Wissenschaftspreis der Informatik, dem Turing Award, für ihre Arbeiten zu tiefen Netzen ausgezeichnet.

Anwendung und Beispiele

Methoden des maschinellen Lernens werden seit Langem in verschiedensten Anwendungen genutzt. Etablierte Anwendungsgebiete sind beispielsweise Beurteilung von Kreditwürdigkeit, Spam-Filterung und Produktempfehlungen sowie allgemein der Bereich Datenanalyse, in dem Ansätze des maschinellen Lernens gleichberechtigt neben statistischen Methoden stehen. In ebenfalls seit Langem adressierten Themenfeldern wie Bilderkennung, Sprach- und Textverarbeitung, intelligenten Assistenten sowie intelligenten Robotersystemen werden durch den Einsatz von Deep-Learning-Methoden vielversprechende Ergebnisse erzielt. Vielbeachtete Anwendungsgebiete sind Medizin (Digital Health) und Industrie 4.0. Die Plattform Lernende Systeme listet als Anwendungsmärkte des Weiteren Agrarwirtschaft, Mobilität und Logistik, Energie und Umwelt, Finanzen sowie Bildung (eLearning). Die konkret unterstützten Bereiche und die eingesetzten Methoden sind vielfältig: In der Medizin werden beispielsweise Verfahren zur Klassifikation und zur Segmentierung von Bilddaten eingesetzt, um medizinische Diagnose zu unterstützen. Informationsextraktion aus medizinischen Texten kann mit Ansätzen des maschinellen Lernens für die Sprachverarbeitung realisiert werden. Modelle zur Vorhersage von Krankheiten können aus großen Sammlungen von Patientendaten gelernt werden. In der industriellen Produktion ermöglicht die Digitale Transformation beispielsweise eine gezieltere Planung von Wartungstätigkeiten (predictive maintainance) sowie ein Zusammenspiel von Maschinensteuerprozessen und Qualitätskontrolle.

Allgemein gilt, dass in allen Bereichen, in denen Information in digitaler Form (Digitalisierung, Digitale Transformation) vorliegt, neben Standardalgorithmen immer dann maschinelles Lernen zum Einsatz kommen kann, wenn es darum geht, Zusammenhänge und Muster in großen Datenmengen und komplexen Datenstrukturen zu identifizieren. Zudem ist maschinelles Lernen immer dann nützlich, wenn das Problem entweder zu komplex ist, um es mit Standardalgorithmen zu bearbeiten, oder wenn es nicht möglich ist, das zur Problemlösung notwendige Wissen explizit bereitzustellen.

Kritik und Probleme

Mit dem zunehmenden Einsatz von maschinellem Lernen in vielen, insbesondere auch sensiblen und sicherheitskritischen Anwendungsbereichen wird immer mehr deutlich, welche Anforderungen für einen praktischen Einsatz erfüllt werden müssen. Für aus Daten gelernte Modelle gibt es keine Korrektheitsgarantie. Zur Bewertung der Performanz in neuen Situationen wird üblicherweise eine Teilmenge der Trainingsdaten nicht fürs Lernen genutzt, sondern nach Abschluss des Lernprozesses als Testdaten verwendet, um die Güte des gelernten Modells abzuschätzen. Erreicht ein gelerntes Modell etwa eine geschätzte Genauigkeit von 99 Prozent, so wird es bei jeder hundertsten Eingabe einen Fehler begehen – ein kritisches Ereignis übersehen (miss) oder fälschlicherweise annehmen (false alarm). Dies ist in Bereichen, in denen Entscheidungen nicht zeit- und sicherheitskritisch sind und bei denen der Mensch korrigieren kann, unproblematisch: Wird bei der Suche nach Bildern, auf denen Katzen zu sehen sind, auch ein Bild von einem Sofa ausgewählt, ist das unkritisch. Würde ein Tumor in einem Gewebeschnitt übersehen, wäre es dramatisch. Gerade bei Bilddaten sind gelernte Modelle häufig wenig robust, das heißt, dass eine für Menschen völlig irrelevante Änderung einiger Bildpunkte dazu führen kann, dass das Modell ein Objekt nicht mehr erkennt ^[9]. Aktuelle Forschung adressiert dieses Problem, indem manipulierte Bilder mit ins Trainingsset aufgenommen werden. Um Robustheit abzuschätzen, wird die Performanz für mehrere Testdatensätze ermittelt und deren Varianz betrachtet.

Zunehmend wird erkannt, dass die Qualität der Daten, mit denen ein Modell trainiert wird, entscheidend für die Güte des gelernten Modells ist. Insbesondere können Daten unerwünschte Korrelationen aufweisen – sogenannte sampling biases. Das Ergebnis können unfaire Modelle sein, bei denen zum Beispiel bestimmte Personengruppen benachteiligt werden. Überwachte Ansätze, zu denen auch viele Deep-Learning-Architekturen gehören, setzen voraus, dass die Trainingsdaten mit den erwünschten Ausgaben annotiert (gelabelt) sind. Bei Alltagsdomänen, wie Verkehrsschildern oder Arten von Tieren, kann dies durch Crowdsourcing erfolgen. In spezialisierten Bereichen, wie der medizinischen Diagnostik oder der Qualitätskontrolle in der industriellen Produktion, kann dies nur durch Domänenexpertinnen und -experten erfolgen. Oft gibt es selbst dann keine absolute Sicherheit (ground truth). In der Medizin spricht man hier von gold standard als beste Annäherung. Labeling kann damit leicht sehr aufwendig werden. Wird dieses Problem nicht gelöst, kann das Data Engineering Bottleneck einen neuen KI-Winter auslösen, wie in der Zeit der Expertensysteme das Knowledge Engineering Bottleneck (siehe Künstliche Intelligenz).

In vielen Anwendungsbereichen ist es aus rechtlichen (insbesondere Haftung), ethischen oder auch praktischen Gründen notwendig, dass nachvollziehbar ist, wie ein maschinell gelerntes Modell zu einer bestimmten Entscheidung kam. Die Modellentwicklerinnen und -entwickler selbst müssen in der Lage sein, Eigenschaften der gelernten Modelle zu beurteilen – insbesondere auch mögliche Biases aufgrund von Überanpassung an die zum Lernen genutzten Daten. Für sicherheitskritische Anwendungen werden zunehmend auch Aspekte der Zertifizierung und Prüfung relevant. Domänenexpertinnen und -experten – etwa in der medizinischen Diagnostik oder bei der Qualitätskontrolle in der industriellen Produktion müssen Systementscheidungen nachvollziehen, überprüfen und gegebenenfalls auch korrigieren können. Verbraucherinnen und Verbraucher sollten verstehen, warum sich ein System – eine Smart-Home-Steuerung, eine Fahrassistenz – auf eine bestimmte Art verhält und warum ihnen bestimmte Produkte empfohlen, bestimmte Tarife angeboten oder bestimmte Angebote vorenthalten werden. Diese Anforderungen werden in der Forschung zu erklärbarem maschinellem Lernen (explainable artificial intelligence, kurz XAI) adressiert ^[10]. Hier werden insbesondere Methoden entwickelt, um die mit neuronalen Netzen gelernten Blackbox-Modelle nachvollziehbar und transparent zu machen. Zunehmend wird aber auch erkannt, dass es für viele Anwendungsbereiche sinnvoll ist, direkt interpretierbare Ansätze des maschinellen Lernens einzusetzen^[11,12].

Das Trainieren von tiefen neuronalen Netzen kann für verschiedene Anwendungsbereiche, für die klassische, deutlich weniger datenintensive Ansätze des maschinellen Lernens weniger gut geeignet sind, sehr gute Ergebnisse bringen. Allerdings geht dies auch mit enormem Energieverbrauch einher. Studien zeigen beispielsweise, dass das Trainieren eines einzigen tiefen Netzwerks im Bereich Sprachverarbeitung so viel CO2 verursacht wie fünf Autos ^[13].

Forschung

Der beeindruckende Erfolg von Deep-Learning-Ansätzen hat zu einem neuen und nie da gewesenen Interesse an Künstlicher-Intelligenz-Forschung geführt. Zunehmend wird allerdings erkannt, wo die Grenzen und Probleme solcher Ansätze sind ^[14]. In der aktuellen Forschung wird zunehmend an hybriden Ansätzen gearbeitet, bei denen wissensbasierte Methoden und maschinelles Lernen kombiniert werden. Diese Versöhnung von zwei historisch überwiegend getrennten Perspektiven auf Künstliche Intelligenz kann zu einer neuen Qualität von Ansätzen führen, die die Entwicklung menschzentrierter KI-Systeme voranbringen.

Verschiedene Doktorandenprojekte untersuchen, wie Maschinelles Lernen, Deep Learning und neuronale Netze als Basis für die Entwicklung neuartiger Algorithmen und Interventionen dienen können. Diese Projekte haben dabei ihren Schwerpunkt im Gesundheitsbereich:

Bildbasierte Früherkennung von Barretts Ösophagus mit halb überwachten Lernalgorithmen

Digital Phenotyping und Predictive Modeling für intelligente onlinebasierte Interventionssysteme zur Behandlung und Prävention psychischer Erkrankungen

Die Nachwuchsforschungsgruppe „Synth2Real: Training Neural Networks with Virtual Data“ arbeitet spezifisch mit Lernmethoden für neuronale Netze.

Weiterführende Links und Literatur

Eine allgemeinverständliche Einführung bietet: Kristian Kersting, Christoph Lampert, Constantin Rothkopf (Hrsg.). Wie Maschinen lernen: Künstliche Intelligenz verständlich erklärt. Springer Sachbuch, 2019. Es gibt ein zugehöriges Einführungsvideo.

Ein Lehrbuch auf Universitätsniveau ist ^[2].

Eine Übersicht über wichtige Themenfelder und Anwendungsgebiete gibt die Plattform Lernende Systeme.

Quellen

^[1] Tom M. Mitchell. Machine Learning. McGraw-Hill, 1997.

^[2] Peter Flach. The Art and Science of Algorithms that Make Sense of Data. CUP, 2012.

^[3] Ian J. Goodfellow, Yoshua Bengio, Aaron C. Courville. Deep Learning. Adaptive computation and machine learning. MIT Press, 2016.

^[4] David E. Rumelhart, James L. McClelland. Parallel Distributed Processing. Explorations in the Microstructure of Cognition. 2 Bände. MIT Press, 1986.

^[5] Jerry A. Fodor, Zenon W. Pylyshyn. Connectionism and cognitive architecture: A critical analysis. Cognition, 28(1–2), 3–71, 1988.

^[6] Ryszard S. Michalski, Jaime G. Carbonell, Tom M. Mitchell (Hrsg.). Machine Learning. An Artificial Intelligence Approach. 3 Bände, Springer, 1983.

^[7] Earl B. Hunt. Concept learning: An information processing problem. Wiley, 1962.

^[8] Christopher Bishop. Pattern Recognition and Machine Learning. Springer, 2006.

^[9] Alexey Kurakin, Ian J. Goodfellow, Samy Bengio. Adversarial examples in the physical world. 5th International Conference on Learning Representations (ICLR), Workshop Track Proceedings, 2017.

^[10] Tim Miller. Explanation in artificial intelligence: Insights from the social sciences. Artificial Intelligence, 267: 1–38, 2019.

^[11] Stephen H. Muggleton, Ute Schmid, Christina Zeller, Alireza Tamaddoni-Nezhad, Tarek R. Besold. Ultra-strong machine learning: comprehensibility of programs learned with ILP. Machine Learning 107(7): 1119–1140, 2018.

^[12] Cynthia Rudin. Please stop explaining black box models for high stakes decisions and use interpretable models instead, 2018, http://arxiv.org/abs/1811.10154.

^[13] Emma Strubell, Ananya Ganesh, Andrew McCallum. Energy and Policy Considerations for Modern Deep Learning Research. AAAI 2020: 13693–13696, 2020.

^[14] Gary Marcus. Deep Learning: A Critical Appraisal, 2018, https://arxiv.org/abs/1801.00631.