Warum ist generative KI heutzutage unverzichtbar geworden?
Insbesondere das Generieren von Texten und die Extraktion von Informationen aus großen heterogenen Datenbeständen werden zunehmend in Unternehmen, aber auch von Schülerinnen und Schülern und Studierenden genutzt. Von einem Effizienzgewinn wird beispielsweise im Marketing berichtet oder auch bei einfachen Programmieraufgaben, wie dem Erstellen von Überblicksgrafiken für die Absatzzahlen eines Unternehmens.
Großes Potenzial sehe ich im Bereich der Scientific Discovery, also der Unterstützung wissenschaftlicher Forschung, etwa für die Entwicklung neuer medizinischer Wirkstoffe oder Materialien. Hier lohnt es sich, viel Mühe in das Prompting zu stecken und sehr detaillierte Anweisungen zu geben, etwa durch sogenanntes Chain-of-Thought-Prompting. Auch Prompt Chaining, also das schrittweise Generieren in einzelnen Schritten, wird genutzt, um komplexe Inhalte als Ko-Kreationsprozess von Mensch und KI zu erzeugen.
Und wo stoßen die Anwendungen an Grenzen?
Man muss sich bewusst sein, dass generierte Inhalte fehlerhaft sein können. Immer, wenn es wirklich um etwas geht, ist eine Kontrolle durch den Menschen unverzichtbar. Beispielsweise wurde in einem „Nature“-Artikel von 2024 gezeigt, dass große und instruierbare Sprachmodelle weniger zuverlässig sind.
In mehreren Benchmarkdatensätzen wurden bei Fragen zu geografischem Wissen, wissenschaftlichen Themen, aber auch bei etwas vermeintlich Einfachem wie Addition, fehlerhafte Ausgaben erzeugt. Das Problem ist, dass man ja erst prüfen kann, ob eine Ausgabe korrekt ist, wenn sie erzeugt wurde. Große Sprachmodelle sind bislang nicht in der Lage zu sagen „Hier bin ich unsicher“ oder „Das weiß ich nicht“. Aktuell gibt es für generative KI noch kaum Ansätze, um die Zuverlässigkeit von generierten Ausgaben besser einschätzen zu können.
Am bidt betrachten Sie Vertrauen daher als wesentliche Gelingensbedingung für die Zusammenarbeit zwischen Mensch und Künstlicher Intelligenz. Wann vertrauen Menschen in KI?
Vertrauen ist ein Begriff, der in der Sozialpsychologie für zwischenmenschliche Beziehungen definiert ist. Aber wir kennen auch Vertrauen in Institutionen, etwa den Rechtsstaat oder den TÜV, in Berufsgruppen oder eben Technologien. Hier ist das Zutrauen in deren Verlässlichkeit gemeint. Vertrauen in generative KI ist jedoch komplexer als Vertrauen in die Verlässlichkeit eines E-Mail-Programms oder einer Airbagsteuerung. Bei diesen Technologien verfügen wir über lange Nutzungserfahrung und haben ein mentales Modell davon, was das System tut. Das mentale Modell muss nicht technisch korrekt sein, aber es muss uns dazu befähigen, abzuschätzen, welchen Effekt eine Interaktion mit dem System hat, was das System kann und was nicht.
Über KI wissen die meisten Menschen viel weniger als über ein Auto. Wir wissen, dass ein Auto nicht fliegen kann und haben Hypothesen, woran es liegen kann, wenn das Auto nicht anspringt. Für KI-Technologien haben wir keine vergleichbaren mentalen Modelle und Konzepte. Entsprechend existieren teils sehr falsche Vorstellungen, etwa, dass Chatbots tatsächlich ein Verständnis des Gegenstands haben, zu dem ein Inhalt generiert wird.
Vertrauen in KI-Systeme kann man auf verschiedenen Ebenen betrachten: Vertrauen wir der zugrunde liegenden Methode, dem Anbieter, der Kompetenz der KI-Entwicklerinnen und -Entwickler, den Trainingsdaten, dem speziellen KI-Werkzeug, das wir nutzen, oder der für einen konkreten Prompt generierten Ausgabe?
Forschungsschwerpunkt
Diese komplexen Ebenen von Vertrauen in generative KI werden am bidt im Forschungsschwerpunkt „Mensch und generative Künstliche Intelligenz: Trust in Co-Creation“ interdisziplinär erforscht. Mit welchen Fragen befassen Sie sich dabei genau?
Im Forschungsschwerpunkt werden Bedingungen für Vertrauen, insbesondere notwendige Kompetenzen, Bewertungskriterien für die Qualität generierter Inhalte sowie technische, ethische und normative Rahmenbedingungen betrachtet. Der Prozess der Ko-Kreation wird unter den Perspektiven der Produktion, Interaktion und Rezeption generierter Inhalte adressiert. Beispielsweise wird im Projekt pAIrProg, das ich leite, das Thema der Generierung von Programmcode erforscht.
Aus Perspektive der Informatik und Psychologie wollen wir vertrauenswürdige Schnittstellen für die Nutzung von Codegeneratoren in der Programmierausbildung und der professionellen Softwareentwicklung erarbeiten und evaluieren.
Prof. Dr. Ute Schmid Zum Profil
Stichwort „Vertrauenswürdigkeit“: Bei generativer KI wird viel über Qualität und Zuverlässigkeit diskutiert, wenn die KI halluziniert und erfundene Informationen ausspielt. Unter welchen Bedingungen können Menschen in KI vertrauen?
Teilweise haben Menschen ein generalisiertes Über- oder Untervertrauen in solche Systeme. Stattdessen wäre es wichtig, Vertrauen angemessen „zu kalibrieren“. Damit ist gemeint, dass wir in Abhängigkeit der jeweiligen Aufgabe, die wir an ein System delegieren, einschätzen können, wie viel Aufwand wir in die kritische Kontrolle der generierten Inhalte stecken sollten.
Gerade in der Medizin hat generative KI einerseits großes Potenzial und andererseits auch hohe Risiken. Arztbriefe könnten schneller erstellt oder relevante Informationen schneller extrahiert werden. Allerdings besteht etwa die Gefahr, dass wichtige Informationen übersehen werden. In hochkomplexen und sicherheitskritischen Bereichen wie der Diagnostik, der Therapieplanung oder auch der medizinischen Forschung sind ko-kreative Prozesse und menschliche Kontrolle unverzichtbar. Das heißt, Fachkompetenz ist notwendig, um generative KI sinnvoll zu nutzen.
Wann ist hinsichtlich des Vertrauens in KI generell Vorsicht geboten – denken wir etwa an Deepfakes?
Beim Thema Deepfakes geht es um indirektes Vertrauen in Bilder und Texte, die uns in Social Media oder anderen Medien begegnen. Hier brauchen wir Methoden, die uns helfen, einzuschätzen, ob ein Inhalt faktisch korrekt oder plausibel ist. Fakenews und auch Bilder, die nicht den Tatsachen entsprechen, gab es schon immer. Egal, ob ein Mensch manipuliert oder bewusst falsche Inhalte generiert oder ein KI-System, die Strategie bleibt gleich: die Prüfung über unabhängige Quellen. Wenn wir ein Foto von Angela Merkel und Barak Obama am Strand sehen, würden wir beispielsweise über Medien, denen wir vertrauen, nachprüfen, ob die beiden sich getroffen haben. Eine der dringlichsten Aufgaben der Medienbildung ist meiner Meinung nach, solche Beurteilungs- und Prüfkompetenzen zu vermitteln.
Beim Umgang mit der neuen Technologie benötigen wir also tiefgreifendes Wissen und Kenntnisse. Wie hängen diese Kompetenzen mit der menschlichen Kategorie Vertrauen zusammen?
Ich würde den Vertrauensbegriff, wie er bei zwischenmenschlichem Vertrauen verwendet wird, und den Vertrauensbegriff in KI-Systeme differenziert betrachten. Ich kann beispielsweise sagen: „Ich vertraue dem Rat meiner Mutter“. „Ich vertraue der KI“ ist eine eher unpassende Zuschreibung. Stattdessen geht es um Vertrauen in die Funktionsweise einer bestimmten Technologie oder eines bestimmten Systems.
Im Sinne des von der Informatikdidaktik formulierten Dagstuhl-Dreiecks für digitale Kompetenzen benötigen wir als Grundlage von Vertrauenszuschreibungen: (1) Wissen über grundlegende Konzepte und Methoden von KI-Systemen. Diese bilden die Grundlage für (2) eine souveräne und reflektierte Nutzung von speziellen KI-Tools. Grundkompetenzen und Nutzungserfahrung gemeinsam bilden die Voraussetzung für (3) die kritische Reflexion der Auswirkung von KI-Methoden auf das eigene Leben, die Gesellschaft und Umwelt.
Demnach erscheint es dringend notwendig, sich so früh wie möglich mit ChatGPT und anderen KI-Anwendungen zu befassen. Sollte KI bereits in der Schule unterrichtet werden?
Das Thema KI gehört aus meiner Sicht unverzichtbar in die Schule und ins Lehramtsstudium. Ich plädiere für ein verpflichtendes Schulfach Informatik, in dem auch KI-Methoden vermittelt werden. Generell sollten dabei alle drei Aspekte des Dagstuhl-Dreiecks adressiert werden.
Bereits jetzt ist ein zunehmender sogenannter Digital Divide zu beobachten. Eine internationale Studie von 2023 (ICILS 2023, International Computer and Information Literacy Study) zeigt im Vergleich zu 2018 deutliche Rückschritte bei Achtklässlerinnen und Achtklässlern. 40 Prozent erreichen nur rudimentäre digitale Kompetenzen. Dabei sind die Leistungen in Deutschland besonders ungleich verteilt, was den Bildungshintergrund der Eltern betrifft.
Aktuell wird beim Thema generative KI im Schulkontext vor allem diskutiert, wie man vermeiden kann, dass Schülerinnen und Schüler ihre Hausaufgaben mit KI-Tools lösen. Es hat sich allerdings vorher nie jemand darum geschert, dass Hausaufgaben möglicherweise von einem Elternteil erledigt wurden. Die Vermittlung von KI-Grundkompetenzen ist aus diesem Grund eine zentrale Aufgabe der schulischen Bildung, da nur so Ungleichheiten ausgeglichen werden könnten.
Herzlichen Dank für das Gespräch!
In den Medien: Ute Schmid im BR Podcast
„Wann Menschen in KI vertrauen sollten“ war Thema der Bayern 2 Sendereihe „Aktuelle Interviews“ am 11.04.2025. Ute Schmid erörtert im Beitrag die Vertrauensfrage rund um generative KI und wie eine vernünftige Interaktion aussehen kann. Die Sendung steht im BR-Podcast und in der ARD Audiothek zur Verfügung.
Literatur
Jansen, P. et al. (2024). Discoveryworld: A virtual environment for developing and evaluating automated scientific discovery agents. In: Advances in Neural Information Processing Systems 37, 10088–10116.
Schmid, U. (2024). Bildungskanon für eine digitale Gesellschaft: In der Schule müssen digitale Grundkompetenzen vermittelt werden. In: Akademie Aktuell 1 (82). https://badw.de/fileadmin/pub/akademieAktuell/2024/82/AA0124_32_Fokus_5_Schmid.pdf
Schmid, U. (2024). Trustworthy Artificial Intelligence: Comprehensible, Transparent and Correctable. In: Werthner, H. et al. Introduction to Digital Humanism. Springer, Cham. https://doi.org/10.1007/978-3-031-45304-5_10
Zhou, L. et al. (2024). Larger and more instructable language models become less reliable. In: Nature 634 (8032), 61–68. DOI: 10.1038/s41586-024-07930-y