Warum KI & Ethik?

Künstliche Intelligenz (KI) ist inzwischen weit mehr als ein Science-Fiction-Motiv – sie hält Einzug in unser alltägliches Leben. In diesem Beitrag erklären wir, was KI und Maschinenlernen ist, und welche Rolle ethische Erwägungen dabei spielen.

16. März 2021

Prof. Dr. Alexander Pretschner

Vorsitzender im bidt Direktorium und Mitglied im Geschäftsleitenden Ausschuss | Professor für Software & Systems Engineering, Technische Universität München & Vorsitzender des wissenschaftlichen Direktoriums, fortiss

Zum Profil

Die folgenden Texte sind für den KI-Campus als kurze Vorlesungen im Modul zu Ethik entstanden und nähern sich dem Thema KI und Ethik – oder eigentlich dem Thema Software und Ethik – aus technischer Perspektive. Ethische Erwägungen werden motiviert, aber bewusst nicht durchdekliniert; denn das müssen Ethikerinnen und Ethiker tun. Viele der hier vorgestellten Ideen haben die bidt-Projekte zu Ethik im Agilen Software Engineering und zu Erklärungen in komplexen sozio-technischen Systemen motiviert.

Teil I: Was ist KI, was ist Maschinenlernen?

Was heißt „Problem“ in der Informatik?

Künstliche Intelligenz, ein ganz falsches Wort, bezeichnet eine Reihe von Verfahren, um Probleme zu lösen. Als „Probleme“ bezeichne ich dabei technische Probleme, die Informatikerinnen und Informatiker haben und deren Lösung hoffentlich zur Lösung von Problemen in der analogen Welt beiträgt. Technische Probleme, die wir in der Informatik haben, sind vergleichsweise einfach, wenn man sie mit den Problemen vergleicht, die in der Philosophie, Politikwissenschaft oder Soziologie auftreten. Das liegt möglicherweise daran, dass unsere Probleme eine Lösung haben.

Für Informatikerinnen und Informatiker ist ein Problem die Zuordnung von Ausgaben zu Eingaben. Die Eingabe „Entfernung zum vorausfahrenden Auto“ bildet die Software in einem adaptiven Tempomaten auf die Ausgabe „Bremsen“ oder „Beschleunigen“ ab. Die Eingaben „Isttemperatur und Solltemperatur“ bildet die Software in einer Klimaanlage auf die Ausgabe „Öffnungsgrad des Ventils für Kälteflüssigkeit“ ab. Ein Herzschrittmacher bildet die Eingabe „aktueller Herzschlag und elektrischer Widerstand des Lungengewebes“ auf Spannungsimpulse ab. Die Google-Suche bildet die Eingabe „Ethik und KI“ auf eine Liste von Webseiten ab. Die Corona-App bildet Bluetooth-Kontakte auf Zufallszahlen ab. Und so weiter. Das sind mathematische Funktionen, die wir aus der Schule kennen: f(x)= x²berechnet als Ausgabe das Quadrat der Eingabe x.

Traditionelle Programme beschreiben durch eine Menge von Schritten, wie diese Funktionen ausgerechnet werden. Diese Schritte sind sehr kleinteilig, in ihrer Reihenfolge klar festgelegt, und sie müssen absolut präzise sein. Wahrscheinlich haben Sie das Wort „Algorithmus“ schon einmal gehört. Das ist auch so eine Abfolge von Schritten. Wenn ein Algorithmus so präzisiert und aufgeschrieben wird, dass er von einem Computer verstanden werden kann, dann nennen wir das ein „Programm“. Mehrere Programme zusammen bilden Software. Wir haben das ausführlich in diesem Beitrag dargestellt. Lassen Sie uns für jetzt im Kopf behalten, dass eine Funktion und ihre Berechnung, hier durch ein Programm, zwei unterschiedliche Dinge sind.

Welche Arten von KI gibt es?

Künstliche Intelligenz existiert grob in zwei Ausprägungen. Einmal gibt es die sogenannte symbolische KI. Die funktioniert ein bisschen so, wie ich eben Programme beschrieben habe. Man schreibt explizit und ganz detailliert alles auf, was man weiß und was relevant ist. Das, was im Programm die einzelnen Schritte sind, sind hier Regeln und Eigenschaften von Objekten: Wenn es regnet, wird es mit einer gewissen Wahrscheinlichkeit nass. Wenn ich ein Objekt an einer Schnur ziehe, bewegt es sich entlang der Zugrichtung. Wenn die Symptome Fieber, Husten und Geschmacksverlust beobachtet werden, liegt möglicherweise eine Corona-Infektion vor. Anhand der Regeln und vorliegender Fakten kann man dann Schlüsse ziehen. Was in diesem Fall nicht durch Programmiererinnen und Programmierer festgelegt werden muss, ist die Reihenfolge der Regelanwendungen: Die „rät“ gewissermaßen die symbolische KI.

Das funktioniert manchmal, aber in der Summe nicht immer besonders gut. Wenn man festhält, dass sich bei Ziehen an einer Schnur ein Objekt bewegt, dann wird es Situationen geben, in denen man auch festhalten sollte, dass man mit einer Schnur zwar ziehen, aber nicht schieben kann. Und was noch? Dass die Schnur vorher nicht durchgeschnitten worden sein darf? Dass sie hinreichend robust sein muss? Dass das Objekt nicht zu schwer sein darf? Oder, ganz ähnlich: Wenn man beschreiben will, woran eine Kamera im Auto eine Fußgängerin oder einen Fußgänger erkennt, dann muss man über große, kleine, dicke und dünne Menschen sprechen; über Menschen mit Regenschirmen und Einkaufstüten; über Menschen, die Fahrräder schieben und im Rollstuhl sitzen; über Menschen, die zu Karneval Hühnerkostüme tragen. Ein Mensch erkennt das alles sofort ohne Nachdenken. Ein explizites Aufschreiben der entsprechenden Regeln, die dann in einem Programm zur Erkennung von FußgängerInnen verwendet werden könnten, ist aber sehr schwierig bzw. unmöglich, weil es so viele zu berücksichtigende Situationen gibt.

Maschinenlernen als Lösung für unscharfe Probleme

Sehen wir uns das Problem der Erkennung von FußgängerInnen an. Wir sind interessiert an einer Funktion f, die für Eingabebilder mit FußgängerInnen als Ausgabe „Achtung FußgängerIn“ liefert und für Bilder ohne FußgängerInnen die Ausgabe „kein/e FußgängerIn“. Erinnern Sie sich, dass eine Funktion und ihre Berechnung zwei unterschiedliche Dinge sind. Die Berechnung der Funktion f als Programm zu formulieren, oder als explizites Regelsystem, ist angesichts des unscharfen Problems schwierig, wie wir gesehen haben.

Deswegen gibt es für bestimmte Klassen von Problemen eine Variante des Problemlösens, das Maschinenlernen. Anstatt die Zusammenhänge, also die Regeln oder die Programmschritte explizit aufzuschreiben, die die Funktion f zur Erkennung von FußgängerInnen ausrechnet, lässt man sie die Berechnung dieser Funktion anhand vieler Beispiele lernen. Weil anhand einer Menge von Beispielen gelernt wird, nennen wir sie die Trainingsdaten. Jedes Trainingsdatum ist ein Paar, das aus einem Bild und seiner Beschreibung besteht, also „FußgängerIn“ oder „kein/e FußgängerIn“. Beim Maschinenlernen wird dann automatisch eine Struktur geschaffen, die für die Trainingsdaten die Zuordnung Eingabebild nach Ausgabe „FußgängerIn“ oder „kein/e FußgängerIn“ repräsentiert. Der Clou ist nun, dass diese Struktur nicht nur für die Trainingsdaten funktioniert. Für diese Bilder wissen wir ja schon, ob sie eine/n FußgängerIn beinhalten – das wäre langweilig. Diese Struktur ermöglicht es nun auch, für neue, unbekannte Bilder zu berechnen, ob sie eine/n FußgängerIn enthalten oder nicht!

Das funktioniert ungefähr so: Wenn ein unbekanntes Bild analysiert werden soll, werden in der gelernten Struktur aus den Trainingsdaten diejenigen Bilder identifiziert, die diesem unbekannten Bild am ähnlichsten sind. Für diese ähnlichsten Trainingsbilder weiß man ja, ob sich eine/n FußgängerIn darauf befindet oder nicht. Wenn nun die Mehrheit der dem neuen Bild ähnlichsten Trainingsbilder eine/n FußgängerIn beinhaltet, wird angenommen, dass das neue Bild ebenfalls eine/n FußgängerIn beinhaltet. Und umgekehrt. Wichtig ist, dass die gelernte Struktur selbst keine expliziten Zusammenhänge beschreibt, sondern allein über die Analyse von Ähnlichkeiten zu einem Ergebnis kommt.

Das funktioniert nicht nur für Funktionen, deren Ausgabe eine von zwei Möglichkeiten ist, wie hier „FußgängerIn“ oder „kein/e FußgängerIn“. Es funktioniert auch für Ausgaben, die kontinuierliche Werte sind, etwa der Öffnungsgrad eines Ventils für Kälteflüssigkeit. Da wird für eine neue, unbekannte, Eingabe „Ist- und Solltemperatur“ wieder nach den ähnlichsten Werten im Eingabeteil der Trainingsdaten gesucht, und es wird der Durchschnitt der entsprechenden Ausgaben der Trainingsdaten verwendet anstatt eine Mehrheit, wie wir das vorher gesehen haben. Die Ausgabe kann auch aus mehreren solcher Werte bestehen, etwa „FußgängerIn oder kein/e FußgängerIn“ und außerdem „Entfernung zur/zum FußgängerIn“. Die Ausgabe kann auch ein ganzes Bild sein oder ein Film – vielleicht haben Sie schon einmal Deep Fakes gesehen. Und sie kann auch ein Programm im klassischen Sinn sein, also eine Menge von kleinteiligen Schritten, die dann ausgeführt werden. Das ist wirklich irre!

Halten wir fest: Funktionen bilden Eingaben auf Ausgaben ab. Die Berechnung einer Funktion ist von der Funktion zu unterscheiden. Die Berechnung der Ausgabe bei gegebener Eingabe kann durch klassische Programme erfolgen, die aus sehr präzisen kleinteiligen Schritten bestehen. Eine ähnliche Art der Berechnung wird in der symbolischen Variante der KI ebenfalls durchgeführt; hier sind die einzelnen Schritte Anwendungen von sehr präzisen expliziten Regeln zur Schlussfolgerung. Die Reihenfolge der Anwendung muss aber nicht vom Menschen vorgegeben werden, sondern wird von der symbolischen KI gewissermaßen geraten. In der datengetriebenen KI, dem Maschinenlernen, werden keine expliziten Schritte oder Regeln angegeben. Stattdessen werden Strukturen aus Beispielen gelernt, die es später ermöglichen, Ausgaben auch für vorher unbekannte Eingaben zu ermitteln, die also nicht Teil der Trainingsdaten waren. Ob diese Struktur genau die Zusammenhänge zwischen Konzepten gelernt hat, die wir Menschen als relevant erachten würden, ist übrigens meistens nicht der Fall. Das sehen wir uns im nächsten Teil an.

Teil II: „Lernen“ aus Daten

„Verstehen“ im Maschinenlernen

Auch wir Menschen lernen ja häufig dadurch, dass wir Zusammenhänge über Beispiele erfassen. Zusammenhänge zu erfassen ist aber nicht dasselbe wie Zusammenhänge zu verstehen und Zusammenhänge erklären zu können! Die Erfahrung haben wir alle schon gemacht: Wenn uns eine Nichtmuttersprachlerin oder ein Nichtmuttersprachler fragt, ob die Grammatik eines bestimmten Satzes korrekt ist, können wir sofort ja oder nein sagen: Wir wissen es, weil sich der Satz „richtig anhört“, weil wir vorher hinreichend viele Beispiele gehört haben, die so ähnlich sind oder eben nicht. Wenn wir dann aber gefragt werden, warum der Satz richtig bzw. falsch ist, können wir das nicht beantworten. Denn meistens kennen wir die Regeln der Grammatik unserer Muttersprache nicht.

Eng damit zusammen hängt die folgende Überlegung, die ich für wichtig halte. Es ist nämlich noch nicht einmal gezwungenermaßen so, dass die maschinengelernte Struktur dieselben Zusammenhänge repräsentiert, die wir als Menschen als relevant erachten würden. Wir Menschen erkennen das Bild einer Fußgängerin oder eines Fußgängers vielleicht daran, dass es sich um ein längliches Wesen mit Merkmalen wie Kopf, Rumpf, Armen, Beinen usw. handelt, das sich auf eine bestimmte Art und Weise bewegt und das bestimmte Dinge erwartbar tut oder nicht tut. In unserem Kopf passiert bei der Zuordnung des Mentalen zu den Objekten der realen Welt etwas, das die Philosophie Intentionalität nennen. Die maschinengelernte Struktur, die wir im ersten Teil eingeführt haben, kennt keine solche Intentionalität. Es ist sogar davon auszugehen, dass sie etwas völlig anderes repräsentiert! Das sieht man in der Praxis daran, dass es im Normalfall so sein wird, dass man durch Verändern nur eines einzigen Bildpunkts im Bild einer Fußgängerin oder eines Fußgängers die Maschine austricksen kann: Eine korrekte Zuordnung für das ursprüngliche Bild führt zu einer falschen Zuordnung für das minimal modifizierte Bild.

Die Naturwissenschaften schließen von Phänomenen bzw. Daten auf Wirkzusammenhänge. Dazu hat die Menschheit im Laufe der Zeit unglaublich mächtige Werkzeuge entwickelt wie etwa das Experiment, die Modellbildung, die Hypothese und deren Falsifikation. Im Maschinenlernen findet i.A. keine explizite Modellbildung dieser Art statt, gerade weil sich das ja häufig als zu kompliziert darstellt. Allein aus Daten werden – vermeintliche – Zusammenhänge abgeleitet. Die KI erkennt aber keine Kausalitäten, sondern statistische Muster in den Daten. Das allein, ohne Modellbildung, würden wir in vielen Situationen als unwissenschaftlich empfinden, weil dieses Vorgehen zu aus heutiger Sicht völlig irren Schlussfolgerungen führen kann. Ich denke etwa an die Idee von Paracelsus, dass man Spermien nur vierzig Tage lang in warmem Pferdemist aufbewahren müsse, um kleine Menschlein zu erzeugen. Oder mir fällt die Idee der Homöopathie von Samuel Hahnemann ein, dass man mit nicht nachweisbaren Mengen von Substanzen Wirkungen erzielen könne, weil bestimmte Gifte ähnliche Symptome hervorrufen wie bestimmte Krankheiten. Die Gefahr solcher bemerkenswerten Schlussfolgerungen besteht auch beim Maschinenlernen. Allerdings, und das müssen wir aus pragmatischer Perspektive unbedingt festhalten, ist das Maschinenlernen in der Praxis oft einfach unglaublich erfolgreich, und insbesondere erfolgreicher als Ansätze mit expliziter Modellbildung zur Repräsentation der Wirkzusammenhänge. Hippokrates hat das so formuliert: Wer heilt, hat recht.

Wann ist Maschinenlernen sinnvoll?

Das sollten wir sicherlich immer im Kopf behalten. Nach dieser prinzipiellen wissenschaftstheoretischen Erwägung müssen wir aber auch noch über die Praxis der Verwendung von Daten sprechen. Wir haben gesehen, dass Maschinenlernen sich immer dann anbietet, wenn man die Zusammenhänge, die einer zu berechnenden Funktion zugrunde liegen, nicht genau kennt oder nicht kennen kann. Vorhersagen dazu, was Kundinnen und Kunden demnächst kaufen werden, sind schwierig als explizite Regel zu beschreiben. Vorhersagen dazu, welche Webseite für eine Suchanfrage besonders relevant ist, sind ebenfalls schwierig explizit zu formulieren. Und das gilt auch für die Vorhersage, wann ein mechanisches Teil wahrscheinlich defekt sein wird; für die Wettervorhersage; für die Diagnose von Krankheiten usw. Es ist wichtig, dass wir uns erinnern, dass solche Vorhersagen genau Beispiele für die Funktionen sind, die wir im letzten Teil eingeführt haben.

Die Grenzen von Maschinenlernen

Voraussetzung für das Maschinenlernen ist, dass die Trainingsdaten in großer Anzahl vorliegen und dass für jedes Trainingsdatum nicht nur die jeweilige Eingabe, sondern auch die „richtige“ Ausgabe vorliegt. Manchmal ist man in der glücklichen Situation, dass das der Fall ist. Amazon zum Beispiel weiß ja, was Sie gekauft haben und was Menschen gekauft haben, die so ähnlich sind wie Sie. Google weiß ja, auf welche Links von bestimmten Personen für bestimmte Anfragen geklickt wurde und weiß auch sehr genau, welche Personen einander ähnlich sind und deswegen möglicherweise dieselben Webseiten interessant finden werden.

In anderen Situationen ist das nicht so klar: Bei medizinischen Diagnosen etwa weiß man ja gar nicht immer, was alles die relevanten Faktoren sind, die zu einer Diagnose durch eine Ärztin oder einen Arzt geführt haben – und die Diagnose kann auch falsch sein. Auch die zugrundeliegenden Daten selbst können falsch sein. Bei der Wettervorhersage ist ebenfalls nicht ganz klar, was alles die das Wetter bestimmenden Faktoren sind, und wie präzise und vollständig die gemessen wurden, ist ebenfalls nicht von vornherein klar. Und wenn Vorhersagen getroffen werden, ob Ihr Scheibenwischermotor demnächst ausfallen wird, sind die zugrundeliegenden Daten häufig ebenfalls nicht so sauber, nicht so korrekt und vollständig, wie das vielleicht für Suchanfragen und als relevant empfundene Webseiten der Fall ist.

Wir müssen hier zwei Aspekte genauer ansehen. Der eine Aspekt ist, welche Daten auf welcher Granularität für eine Vorhersage herangezogen werden. Was sind die Faktoren, die die Kreditwürdigkeit einer Kundin oder eines Kunden determinieren? Was sind die Faktoren, die schulischen Erfolg vorherzusagen helfen? Was sind die Faktoren, die die richtige Diagnose ermöglichen? Das ist kein technisches, sondern ein methodisches Problem. Bei einer gegebenen Menge solcher Daten kann das Maschinenlernen sogar helfen, irrelevante Daten zu identifizieren – aber es kann nicht feststellen, ob relevante Daten fehlen! Wenn man sich jedenfalls einmal entschieden hat, was die vermeintlich relevanten Daten sind, kommt der zweite Aspekt ins Spiel, die Qualität der Daten. Wenn Daten gemessen und gespeichert werden, passieren aus ganz unterschiedlichen Gründen Fehler, und die Daten sind dann unvollständig oder schlicht falsch. Das passiert sowohl in der analogen als auch in der digitalen Welt.

Trainingsdaten können also unvollständig und falsch sein. Das sehen wir uns im nächsten Teil an.

Teil III: Qualitäten von Daten

Das Problemfeld Trainingsdaten

Wir haben den letzten Teil mit der Beobachtung abgeschlossen, dass Trainingsdaten unvollständig und falsch sein können. Falsch können die Trainingsdaten in zwei Ausprägungen sein: Die Eingabedaten können falsch sein, und die Ausgaben ebenfalls. Denken Sie an falsche Laborwerte und an Fehldiagnosen.

Unvollständig können die Trainingsdaten in vier Ausprägungen sein: Wenn sie nicht die relevanten Faktoren erfassen, sind sie erstens schlicht inadäquat. Wenn wir Bilder von FußgängerInnen nur bei schönem Wetter aufnehmen, können wir eigentlich nur hoffen, dass später auch FußgängerInnen bei Regenwetter erkannt werden. Wenn man nicht verstanden hat, dass Helicobacter pylori kausal für Magengeschwüre ist und die Eingabedaten keine Informationen über das Vorkommen des Bakteriums beinhalten, wird man den Zusammenhang zwischen Helicobacter und Geschwüren offensichtlich nie erkennen können und stattdessen vielleicht Stress als Ursache identifizieren. Das bezieht sich also auf die Auswahl der relevanten Faktoren als Teil der Eingabedaten.

Zweitens haben wir gesehen, dass wir für das Lernen als Teil der Beispiele auch die entsprechenden Ausgaben in den Trainingsdaten benötigen. Amazon und Google kennen die Kaufentscheidungen bzw. ausgewählten Suchergebnisse ihrer Kundinnen und Kunden; das sind die Ausgaben. Häufig sind diese Ausgaben aber gar nicht vorhanden! Wenn wir mit Maschinenlernen FußgängerInnen erkennen wollen, benötigen wir viele Bilder, auf denen FußgängerInnen sind und Bilder, auf denen keine sind, und jeweils die Information, ob das der Fall ist. Aber wo kommt diese Information her? Hier liegt oft ein strukturelles Problem vor: Wenn eine Maschine diese Information aus gegebenen Daten erstellen könnte, dann würden wir Maschinenlernen nicht mehr benötigen, denn offenbar gibt es ja bereits eine Maschine, die das Problem gelöst hat. Wenn aber ein Mensch diese Informationen liefern muss, dann wird das bei großen Datenmengen sehr aufwändig – und Menschen können auch wieder Fehler machen. Im Fall von Amazon und Google liegt der Fall übrigens etwas anders: Hier entstehen die Ausgaben in den Trainingsdaten durch Beobachtung der Interaktion von Mensch und Maschine, nicht durch Berechnung.

Drittens können Daten auch in zu geringer Zahl vorliegen, was dann dazu führt, dass man aus zu wenigen Beispielen die falschen Schlüsse zieht. Das Problem haben wir Menschen auch. Wir nennen das dann Vorurteile. Es ist wichtig, sich klarzumachen, dass die Verfügbarkeit hinreichender Datenmengen vom Kontext abhängt: Amazon und Google haben es vergleichsweise einfach, große Mengen vollständiger Daten guter Qualität bzgl. Kauf- und Suchverhalten zu erheben. Das ist nicht so einfach für Messungen in der analogen Welt, und das ist nicht so einfach für die Diagnose seltener Krankheiten.

Eine weitere Schwierigkeit ergibt sich viertens aus dem Problem, dass Trainingsdaten repräsentativ für die Zusammenhänge in der echten Welt sein sollen: Wenn man ein Erkennungssystem für FußgängerInnen nur in Situationen mit schönem Wetter anwendet, mag es akzeptabel sein, nur oder fast nur Trainingsdaten mit schönem Wetter zu verwenden. Wir würden uns aber natürlich wünschen, dass das System im Fall ausnahmsweise schlechten Wetters trotzdem funktioniert; insbesondere deswegen, weil wir vielleicht gar nicht ahnen, dass die Wetterverhältnisse einen Einfluss auf die Erkennungsgenauigkeit haben. In diesem Fall ist es aber wahrscheinlich, dass die Qualität des Erkennungssystems durchaus vom Wetter abhängt. Erinnern Sie sich, dass eine maschinengelernte Struktur Ausgaben ermittelt, indem für eine unbekannte Eingabe die Ausgaben derjenigen Trainingsdaten gemittelt werden, deren Eingabedaten der unbekannten Eingabe am ähnlichsten sind. Wenn nun fast nur Aufnahmen von schönem Wetter vorliegen, sind die ähnlichsten Trainingsdaten wahrscheinlich nicht sehr ähnlich zu einem Regenwetterbild. Dann kann es zu falschen Resultaten kommen. Ein berühmtes Beispiel für dieses Phänomen sind frühe Versionen von Gesichtserkennungssystemen, die Weiße mit sehr guter Genauigkeit erkannt haben, Schwarze aber mit schlechter Genauigkeit, weil sie vornehmlich mit Bildern von Weißen trainiert wurden. Wenn die Ergebnisse automatischer Gesichtserkennung von der Polizei automatisch als richtig angenommen werden, kann das zu Konsequenzen wie unberechtigten Festnahmen führen. Das ist gerade im letzten Jahr in Michigan passiert. Ethisch ist das auch deswegen problematisch, weil wir Menschen denken, dass eine KI zu „neutraleren“, „besseren“ oder „rationaleren“ Schlüssen kommt, weil kein Mensch am Werk ist. Aber eine KI kann nicht besser sein als die Daten, mit denen sie trainiert wurde.

Kann eine KI diskriminierend sein?

Statistische Verteilungen von Eingabedaten können also, aus mathematischen Gründen übrigens, in der Praxis des Maschinenlernens dazu führen, dass seltene Eingabedaten mit höherer Wahrscheinlichkeit zu falschen Ausgaben führen. Das ist bei Menschen ja nicht anders: Fehler machen wir eher in Ausnahmesituationen. Informatikerinnen und Informatiker arbeiten daran, dieses Problem in den Griff zu bekommen. Ich will zum Abschluss dieses Teils aber noch kurz auf einen anderen Aspekt der Verteilung von Ein- und Ausgabedaten eingehen. Da das Maschinenlernen letztlich statistische Zusammenhänge erfasst, wird es auch statistische Zusammenhänge identifizieren, die wir möglicherweise als problematisch empfinden. Wenn Angehörige einer bestimmten Nationalität und eines bestimmten Alters statistisch als besonders unfallverursachend erkannt werden; oder wenn Fortbildungsmaßnahmen für eine bestimmte Altersgruppe statistisch als ineffektiv erkannt werden; oder wenn ein bestimmtes Geschlecht statistisch zu niedrigeren Leistungen führt, dann empfinden wir das vielleicht als diskriminierend. Das spielt in den USA aus historischen und kulturellen Gründen eine viel größere Rolle als bei uns, ist bei uns aber nicht minder wichtig und ja auch im Grundgesetz für bestimmte Merkmale verboten. Man kann dann in den Trainingsdaten diese Merkmale einfach weglassen. Das löst das Problem aber nicht immer, wenn diese Primärmerkmale wiederum mit sekundären Merkmalen korrelieren und sich dann aus der Diskriminierung bzgl. der Sekundärmerkmale automatisch auch eine Diskriminierung bzgl. der Primärmerkmale ergibt.

Zwischenfazit

Fassen wir zusammen: Beim Maschinenlernen werden erstens Zusammenhänge gelernt, die wir nicht explizit kennen. Würden wir sie kennen, benötigten wir ja kein Maschinenlernen! Diese Zusammenhänge repräsentieren zweitens nicht gezwungenermaßen reale Wirkketten: Sie sind statistischer Natur, nicht ontologischer. Die Strukturen, die das Resultat des Lernvorgangs sind, beinhalten drittens keine expliziten Regeln, die für Menschen einleuchtend Konzepte zueinander in Bezug setzen, sondern funktionieren letztlich eben über statistische Analyse von Ähnlichkeiten. Viertens wissen wir aus den genannten Gründen nicht, ob die Daten geeignet sind, Zusammenhänge in der echten Welt zu repräsentieren; ob sie für alle neuen Eingabedaten funktionieren; ob sie für alle Untergruppen von Eingabedaten gleich gut funktionieren; und ob sie unerwünschtes Diskriminierungspotential bergen. Fünftens, das sollten wir bei unserer kritischen Analyse nicht vergessen, funktioniert Maschinenlernen in der Praxis oft ganz außerordentlich gut!

Teil IV: Ethische Erwägungen: Beobachtungen

Regeln vs. Daten

Wir haben bereits im ersten Teil festgestellt, dass Maschinenlernen immer dann eine gute Option ist, wenn Zusammenhänge nicht präzise fassbar oder nicht verstanden sind – weil es dann sehr schwierig ist, die einzelnen Schritte eines Programms zu formulieren oder die relevanten Regeln sauber und vollständig zu erfassen. Jetzt stellen wir aber fest, dass wir dieses Problem dadurch gelöst haben, dass wir es verschoben haben! Statt expliziter Regeln benötigen wir in vielerlei Hinsicht „gute“ Daten. Es liegt in der Verantwortung der Entwicklerinnen und Entwickler KI-basierter Systeme, dass die Daten hinreichend gut sind, um daraus die relevanten Zusammenhänge abzuleiten. Aber festzustellen, ob das wirklich der Fall ist, ist in der Regel unmöglich.

Realweltliche Konsequenzen von Maschinenlernen

Ich finde das alles sehr interessant! Relevant wird es außerdem, wenn von Maschinen angestellte Berechnungen Konsequenzen in der analogen Welt zeitigen. Systeme zur Erkennung von FußgängerInnen sind ja kein Selbstzweck, sondern sollen das Verhalten von automatisierten Autos beeinflussen, etwa Bremsen oder Beschleunigen. Welche Resultate mir für eine Suche präsentiert werden, hat einen Einfluss darauf, welches Bild der Welt ich gewinne. Welche Art von Artikeln mir zum Kauf vorgeschlagen wird, hat einen Einfluss auf mein Kaufverhalten. Meine Hautfarbe kann – und hat mindestens in der Vergangenheit – dazu führen, dass eine Fehlberechnung zu meiner Festnahme führt.

Berechnungen von Maschinen haben also einen Effekt in der echten Welt. Sonst wären sie auch irrelevant und müssten gar nicht durchgeführt werden. Ich für meinen Teil halte es für vollkommen irrelevant, ob diese Berechnungen mit KI oder traditionellen Programmen erfolgt sind – weil beide Ansätze Vor- und Nachteile besitzen, die wir in Teilen schon verstanden haben. „Ethik und KI“ ist nicht die zentrale Fragestellung, sondern Ethik und Software!

Die Problematik des Begriffs „Entscheidung“

Wenn Effekte in der analogen Welt eintreten und das auf Basis maschinengenerierter Daten erfolgt, wird das häufig als „Entscheidung“ bezeichnet. Wenn man das nicht nur als sprachliche Analogie versteht, sondern tatsächlich davon ausgeht, dass Maschinen etwas „entscheiden“, halte ich das für problematisch. Für mich können Entscheidungen nur von Menschen gefällt werden, wenn die nämlich zwischen Handlungsoptionen auswählen. Ich weiß, dass die Philosophie und die Neurowissenschaft darüber streiten, ob es einen freien Willen gibt: Für mich gibt es ihn! Wie auch immer: Auf gewisse Art und Weise „entscheiden“ Maschinen ja tatsächlich – „Beschleunigen“ oder „nicht Beschleunigen“ kann man als Entscheidung begreifen. Diese maschinelle „Entscheidung“ ist aber wegen des zugrundeliegenden Programms oder der zugrundeliegenden gelernten Struktur vollkommen deterministisch und wird unter identischen Kontextfaktoren immer zum selben Resultat kommen. Das ist für Menschen nicht der Fall. In diesem Sinn „entscheiden“ Maschinen nichts, zumindest in meiner Weltsicht, auch wenn ich wiederholen möchte, dass ich für meinen Teil überhaupt kein Problem damit habe, wenn man das Wort „entscheiden“ als Analogie verwendet. Maschinen sind deswegen auch nicht verantwortlich und auch nicht haftbar. Interessant wird es dann, wenn Menschen von Maschinen berechnete Informationen als Grundlage für ihre Entscheidungen verwenden, und das sehen wir uns im nächsten Teil an.

Ethische Konsequenzen – Die Fehlbarkeit der Maschine

Wir haben im letzten Teil gesehen, dass die Qualität der von Maschinen gelernten Strukturen zur Berechnung einer Funktion direkt davon abhängt, wie gut, repräsentativ, vollständig und korrekt die Trainingsdaten sind. Wir haben gesehen, dass es zu unerwünschten Diskriminierungen kommen kann. Wir haben auch angedeutet, dass es sehr schwierig ist, diese Begriffe präzise zu fassen, vor allem die Vollständigkeit. Im letzten Teil wollen wir uns kurz ansehen, was für ethische Konsequenzen sich ergeben können, wenn die durch eine maschinengelernte Struktur errechneten Ausgaben falsch sind: Wenn keine Fußgängerin, kein Fußgänger gesehen wird, wo eine/r ist; wenn kein vorausfahrendes Fahrzeug gesehen wird, wo eins ist; wenn einem Gesicht eine falsche Person zugeordnet wird; oder wenn eine medizinische Fehldiagnose erfolgt.

Es gibt viele Beispiele für solche Fälle: 2016 ist ein Tesla in Florida in einen nicht erkannten kreuzenden Sattelschlepper gefahren, wodurch der Passagier bzw. Fahrer getötet wurde. 2018 wurde in Arizona eine Fußgängerin von einem autonomen Uber-Auto nicht erkannt und tödlich verletzt. 2020 ist ein Tesla in Taiwan in einen umgekippten Lastwagen gefahren, weil er das Objekt nicht erkannt hat; hier wurde niemand ernsthaft verletzt. Ebenfalls 2020 wurde Robert Williams aus Michigan festgenommen, weil eine Gesichtserkennungssoftware ihn fälschlicherweise als Verdächtigen identifiziert hatte.

Das sind extreme Beispiele, von denen wir zunehmend häufiger hören werden. So tragisch diese Ereignisse sind: In der öffentlichen Wahrnehmung führen sie für meinen Geschmack zu Überreaktionen und auch zu Angstmacherei. Wir haben eine Tendenz, von Maschinen viel mehr zu verlangen als von Menschen: Digitale Unterschriften müssen viel mehr „können“ als menschliche Unterschriften. Nicht nur betrunkene Autofahrer gefährden sich und andere ganz massiv weltweit jeden Tag, was Elon Musk als Argument für die letztlich höhere Sicherheit automatisierter Fahrzeuge verwendet hat. Polizistinnen und Polizisten machen Fehler bei der Erkennung von Personen. Es gibt Schätzungen, dass in den USA 5% aller Diagnosen für ambulante Patientinnen und Patienten Fehldiagnosen sind – das betrifft 12 Millionen Menschen – und dass 40.000 bis 80.000 Patientinnen und Patienten jedes Jahr wegen Fehldiagnosen sterben. Das soll nichts entschuldigen, bitte missverstehen Sie mich nicht. Enttäuschung ist aber eine Funktion der Erwartung, und deswegen müssen wir die Erwartungen realistisch formulieren. Ich möchte noch einmal wiederholen, dass es aus meiner Perspektive zunächst völlig gleichgültig ist, ob das Fehlverhalten aus maschinengelernten Strukturen resultiert oder aus von Menschen geschriebenen Programmen. Das Problem ist nicht, dass die KI „falsche Entscheidungen“ fällt. Das Problem ist vielmehr, dass Softwaresysteme aus sehr unterschiedlichen Gründen falsche Ausgaben liefern können, die dann entweder eine Maschine oder ein Mensch weiterverwenden, was dann zu Problemen führen kann.

Es gibt einen Unterschied zwischen meinen Beispielen: Im Fall der Gesichtserkennung haben Menschen Fehler gemacht, weil sie sich auf die Daten der Gesichtserkennungs-Software verlassen haben. Im Fall von Uber und Tesla hat die Maschine ein falsches Verhalten mit katastrophalen Konsequenzen gezeigt. In den drei Fällen mit teilautonomen Autos war aber ein Sicherheitsfahrer bzw. der Fahrer des Autos an Bord, der zumindest aus juristischer Perspektive rechtzeitig hätte bremsen müssen und können. Auch Flugzeuge können heute autonom starten und landen; eine Pilotin oder ein Pilot kann aber immer eingreifen. Ob der Mensch im Zweifelsfall und statistisch häufiger als die Maschine die adäquateren Handlungen vollzieht, ist für mich gar nicht klar. Einerseits verlassen wir uns zu Recht lieber auf unser ABS als auf unsere eigenen Bremsfertigkeiten. Andererseits lassen Beispiele wie das der spektakulären vogelschlagbedingten Landung 2009 auf dem Hudson River durch einen heldenhaften Piloten zu Recht fragen, ob eine Software das Problem ähnlich erfolgreich gelöst hätte.

Teil V: Ethische Erwägungen: Herausforderungen

Das Prinzip der Korrektheit

Es besteht kein Zweifel, dass wir Fehlverhalten technischer und soziotechnischer Systeme möglichst verhindern wollen. In rein technischen Systemen haben wir verschiedene Möglichkeiten, Hardware und Software und ihr Zusammenspiel auf Korrektheit zu überprüfen. Korrektheit ist ein relatives Konzept, das Istverhalten zu Sollverhalten in Beziehung setzt. Da gibt es tatsächlich einen Unterschied zwischen traditionellen Softwaresystemen und solchen, die auf KI basieren: In der traditionellen Welt gibt es mindestens in den Bereichen Automobil, Avionik, Bahn, Medizin und Pharmazie ein gutes Verständnis davon, was alle schiefgehen und wie man das vermeiden kann – und es gibt Entwurfs-, Analyse- und Qualitätssicherungstechniken, Standards und Zertifizierungen, deren Verwendung letztlich dazu führt, dass die entsprechenden technischen Systeme in der Summe ja wirklich ganz hervorragend funktionieren. Ein wichtiger Schritt dabei ist immer die Vorgabe, dass das Sollverhalten präzise beschrieben werden muss, und dass es ausführliche Schritte im Entwicklungsprozess gibt, die dem Vergleich von Ist- und Sollverhalten dienen.

Bei maschinengelernten Systemen können wir das Sollverhalten aber nicht präzise fassen. Genau deswegen verwenden wir ja Maschinenlernen und nicht traditionelle Programme! Das macht es notwendig, dass neue Prüfverfahren entwickelt werden müssen, die nicht nur die gelernte Struktur analysieren, sondern insbesondere auch die Trainingsdaten. An entsprechenden Qualitätskriterien und Überprüfungstechniken für Daten und Systeme arbeiten Informatikerinnen und Informatiker weltweit mit Hochdruck.

In diesen rein technischen Systemen nimmt ein Softwaresystem unmittelbaren Einfluss auf die analoge Welt. Ein Beispiel ist das Bremsen beim Erkennen von FußgängerInnen. Andere Beispiele sind vollautomatische Entscheidungen über die Kreditvergabe, über das Fortkommen in einem Bewerbungsprozess, oder über Vorschläge zu Fortbildungen für Arbeitslose. Das geschieht heute alles bereits mit maschinengelernten Systemen.

Soziotechnische Systeme

In soziotechnischen Systemen kommt nun noch ein anderer Aspekt zum Tragen. Dort fällt ein Mensch eine Entscheidung auf Basis von Daten, die eine Maschine zur Verfügung gestellt hat: Eine maschinengenerierte medizinische Diagnose wird durch eine Ärztin oder einen Arzt überprüft; ein maschinengeneriertes richterliches Urteil durch eine Richterin oder einen Richter. Es ist Spekulation, aber ich halte es für wahrscheinlich, dass ein Softwaresystem im Normalfall objektivere und wahrscheinlich angemessenere Vorschläge unterbreitet, als das ein Mensch könnte. Insbesondere in Spezialfällen ist das aber vielleicht nicht der Fall. Deswegen haben wir das Problem der Repräsentativität von Trainingsdaten schon diskutiert. Dann stellt sich die Frage, ob ein Mensch, hier eine Ärztin oder ein Arzt, eine Richterin oder ein Richter, das Selbstvertrauen besitzt, sich über den Vorschlag der Maschine hinwegzusetzen, wenn er/ sie weiß, dass die Maschine vielleicht in 90% der Fälle richtigliegt und ein Mensch statistisch nur in 80% der Fälle.

Wie kann man Menschen in soziotechnischen Systemen befähigen, sich über die Vorschläge von Maschinen hinwegzusetzen? Eine Möglichkeit ist es, dass nicht nur der endgültige Vorschlag dem Menschen vorgelegt wird, sondern zusätzlich eine Begründung oder eine Erklärung oder Plausibilisierung, wie die Maschine zu dem Vorschlag gekommen ist. Diese Erklärung muss dann natürlich von Menschen verstanden werden können. Hier schließt sich der Bogen zu einer Beobachtung am Anfang: Wenn Maschinenlernen eingesetzt wird, gibt es in der Regel keine explizite Repräsentation der angewandten Regeln bzw. von Zusammenhängen zwischen menschverständlichen Konzepten, genau wegen der Abwesenheit von Intentionalität! Dann wird es definitionsgemäß schwierig, menschverständliche Erklärungen zu liefern, die etwa eine Ärztin oder ein Arzt, eine Richterin oder ein Richter zur Prüfung des Vorschlags verwenden könnte. Daran arbeiten Informatikerinnen und Informatiker mit Hochdruck unter dem Stichwort „erklärbare KI“ – die übrigens für die genannten symbolischen Verfahren der KI wegen der expliziten Repräsentation von menschverständlichen Zusammenhängen einfacher ist als für das Maschinenlernen.

Die Frage der Verantwortung: Mensch vs. Maschine

Ganz zum Schluss will ich noch kurz auf die Frage nach der Verantwortung eingehen. Wenn eine Ärztin oder ein Arzt Diagnose- und Therapievorschläge von einer Maschine erhält, diese prüft, ändert oder nicht ändert und dann einer Patientin oder einem Patienten vorlegt, kann man argumentieren, dass die Verantwortung für eine Fehldiagnose bei der Ärztin oder dem Arzt liegt. Wenn die Maschine aber fast immer richtigliegt, halte ich es mindestens für verständlich, wenn sich die Ärztin oder der Arzt eher auf die Maschine als auf sein eigenes Urteil verlässt. Die Verantwortung liegt für mich klar bei der Ärztin oder dem Arzt, weil ich die Idee für abwegig halte, einer Maschine Verantwortung zuzuweisen. Aus rechtlicher und moralischer und Haftungsperspektive halte ich als Laie es aber für angemessen, den Einfluss der Technik hier mit einzubeziehen: Der Mensch ist vielleicht verantwortlich, aber zumindest nicht alleine „schuld“ an einer Fehlentscheidung.

Jetzt müssen wir natürlich aufpassen, dass es nicht zur Diffusion von Verantwortung kommt. Wenn die Ärztin oder der Arzt nicht voll verantwortlich ist und die Maschine es nicht sein kann, wer ist es dann? Die Entwicklerinnen und Entwickler der Maschine? Die Datensammlerinnen und Datensammler? Die Zertifiziererinnen und Zertifizierer der Maschine? Die Betreiberinnen und Betreiber der Maschine? Die Benutzerinnen und Benutzer der Maschine? Für mich alle zusammen, und dann haben wir genau Verantwortungsdiffusion. Aus rechtlicher, also Haftungsperspektive, finde ich es sehr positiv, dass hier aktuell intensive Überlegungen zur Gefährdungshaftung stattfinden, die natürlich mit Überlegungen zu Innovationsfähigkeit abgewogen werden müssen

Offenbar gibt es viele interessante und hochrelevante Erwägungen zur Ethik nicht nur für KI, sondern für Software im Allgemeinen. Einen Aspekt der Verantwortung, den der Verantwortung von Entwicklerinnen und Entwicklern, greifen wir im interdisziplinären bidt-Projekt zur Ethik in der agilen Softwareentwicklung auf. Fragestellungen zur Weiterentwicklung von KI-Modellen und zur Erklärbarkeit bearbeiten wir im Projekt zu Mensch-Maschine-Partnerschaften.

Die vom bidt veröffentlichten Gastbeiträge geben die Ansichten der Autorinnen und Autoren wieder; sie spiegeln nicht die Haltung des Instituts als Ganzes wider.