| Phänomene | Sprachbasierte KI-Systeme: Risiken durch Fehlvorstellungen und unbedachte Interaktionen

Sprachbasierte KI-Systeme: Risiken durch Fehlvorstellungen und unbedachte Interaktionen

Lesezeit: 9 Min.

In einer Welt, die zunehmend von intelligenten Sprachassistenten durchdrungen wird, leben wir in einer faszinierenden und zugleich herausfordernden Zeit. Sprachbasierte KI-Systeme wie Smart Speaker (z. B. Alexa) oder Chatbots (z. B. ChatGPT) bieten eine völlig neue Form der nahtlosen Interaktion in unserem Alltag, die sich durch Bequemlichkeit und Effizienz auszeichnet. Mit einem einfachen Sprachbefehl können wir Musik abspielen, eine Einkaufsliste erstellen oder Informationen abrufen, während wir uns auf andere Tätigkeiten wie Kochen oder Hausarbeit konzentrieren. Trotz ihres großen Nutzens bergen sprachbasierte KI-Systeme auch Risiken. Studien zeigen, dass Nutzende von Sprachassistenten weniger Datenschutzbedenken haben und oft unbewusst mehr private Informationen preisgeben als beabsichtigt, um von den Vorteilen dieser Technologien zu profitieren. [1], [2] Das soziale Einflusspotenzial von Sprachassistenten ist besonders groß. Basierend auf dem Paradigma „Computers Are Social Actors“ [3] lösen Sprachassistenten durch ihre menschenähnlichen Eigenschaften (z. B. Dialogfähigkeit, menschliche Namen) unbewusst soziale Reaktionen bei Nutzenden aus und werden sogar als Freunde oder Familienmitglieder wahrgenommen. [4] Dieser soziale Effekt kann Nutzende zu unbedachten Interaktionen verleiten, wie z. B. impulsivere Kaufentscheidungen zu treffen oder die bereitgestellten Informationen als vertrauenswürdiger einzuschätzen. [5], [6],  [7] Mit ihrer sozialen Wirkmacht heben sich Sprachassistenten von anderen Technologien ab, doch erschwerend kommt hinzu, dass Nutzende oft die Funktionsweise von Sprachassistenten nicht vollständig verstehen. [8], [9] Ein unzureichendes Funktionsverständnis über Sprachassistenten kann zu Ängsten und Fehlvorstellungen führen, die sich beispielsweise in unrealistischen Datenschutzbedenken oder zu hohen Ansprüchen an die Dialogfähigkeit der Systeme äußern. [10], [11] Die Folge ist, dass viele Menschen Schwierigkeiten haben, funktionierende Sprachbefehle zu formulieren, frustriert sind, wenn die Spracherkennung fehlschlägt oder dass sie das Leistungspotenzial von Sprachassistenten nicht voll ausschöpfen. [8], [12], [13]

Nutzungsrisiken und Folgen von Fehlvorstellungen gegenüber Sprachassistenten gefährden die effiziente, sichere und selbstbestimmte Interaktion mit ihnen. [10], [14] Dies verdeutlicht den hohen Bedarf an digitalen Kompetenzen im Kontext Künstlicher Intelligenz. Carolus et al. (2023) haben das Modell der Digital Interaction Literacy entwickelt, das die notwendigen Kompetenzen für den selbstbestimmten Umgang mit sprachbasierten KI-Systemen zusammenfasst. Diese drei Dimensionen mit insgesamt zehn Subdimensionen umfassen 1) das Verstehen von Funktionsprinzipien, 2) den achtsamen Umgang mit Sprachassistenten und 3) zielgruppenspezifische Kompetenzen. Diese Dimensionen werden im Folgenden kurz beschrieben:

  • Dimension 1: Verstehen der funktionellen Prinzipien
    Diese Dimension beinhaltet Kompetenzen, die ein umfassendes Verständnis im Umgang mit sprachbasierten KI-Systemen ermöglichen. Das generelle Wissen über die Funktionsweise bezieht sich darauf, wie Sprachassistenten Sprachbefehle von Nutzenden schrittweise verarbeiten. Das Bewusstsein für Algorithmen befähigt Nutzende, zu verstehen, dass Sprachassistenten Algorithmen verwenden und auf welcher Grundlage es zu Verzerrungen in den Ergebnissen von Suchanfragen kommen kann. Die Handhabung des Geräts bezieht sich darauf, wie Sprachbefehle formuliert werden müssen, um eine effiziente Interaktion zu gewährleisten. KI-Lernen umfasst das Verständnis, dass Sprachassistenten zum Lernen Trainingsdaten benötigen und welche Einflussfaktoren die Qualität und Lernleistung von Sprachassistenten bestimmen. Hierbei werden große Datenmengen verarbeitet und erzeugt.
  • Dimension 2: Achtsamer Umgang
    In dieser Dimension geht es darum, die Nutzung von Sprachassistenten kritisch zu hinterfragen, Risiken zu regulieren und eine bedürfnisgerechte Nutzung sicherzustellen. Dabei beinhaltet Privacy Literacy das Verständnis für mögliche Datenschutzrisiken und die Umsetzung von Datenschutzmaßnahmen. Durch diese Maßnahmen sind Nutzende in der Lage, ihre Identität (teilweise) zu verschleiern. Persuasion Literacy befähigt Nutzende, die Einflussnahme von Sprachassistenten zu erkennen und Abwehrstrategien anzuwenden. Die emotional-affektive Kompetenz ermöglicht einen konstruktiven Umgang mit Frustration und Angst beim Einsatz von Sprachassistenten, um Fehlannahmen entgegenzuwirken und Lernfortschritte zu erleichtern. Die Reflexionsfähigkeit unterstützt die Abwägung von Privatsphäre, Nutzungsvorteilen und ethischen Aspekten für zukünftige Interaktionen.
  • Dimension 3: Zielgruppenspezifische Kompetenzen
    Diese Dimension umfasst Fähigkeiten, die je nach individuellen Bedürfnissen und Verantwortlichkeiten relevant sind. Entwicklungskompetenzen wie Programmierkenntnisse sind von Vorteil für Personen, die Sprachassistenten technisch an ihre Bedürfnisse anpassen möchten. Kommunikations- und Lehrkompetenzen sind besonders für Eltern und Pädagoginnen/Pädagogen wichtig. Sie sollten in der Lage sein, Wissen über Sprachassistenten verständlich zu vermitteln und das Nutzungsverhalten des Kindes zu evaluieren. Dadurch kann das Kind beispielsweise die eigene Privatsphäre besser schützen oder Interesse an der Technologie entwickeln.
Vergleichbarkeit mit anderen digitalen Phänomenen

Obwohl Chatbots und Sprachassistenten oberflächlich unterschiedlich wirken, teilen sie die Fähigkeit, menschliche Sprache zu verstehen und angemessen zu antworten. Beide Anwendungen verkörpern sprachbasierte KI und nutzen beispielsweise Natural Language Understanding (NLU), um Anfragen zu interpretieren und passende Antworten zu finden. Der Hauptunterschied liegt in der Ein- und Ausgabe: Sprachassistenten benötigen eine Transkription von gesprochener Sprache in Form von maschinenlesbarem Text, während Chatbots direkt mit Text interagieren.

Chatbots haben ähnliche soziale Auswirkungen auf Nutzende wie Sprachassistenten. Chatbots mit menschenähnlichen Merkmalen (z. B. Name) können das Vertrauen der Nutzenden stärken und dazu führen, dass diese eher ihren Empfehlungen folgen. [15], [16] Zudem neigen Nutzende dazu, mehr von sich preiszugeben, nachdem ein Chatbot persönliche Informationen preisgegeben hat. Dieses Phänomen wird als reziproke Selbstoffenbarung bezeichnet und wurde auch im Zusammenhang mit Sprachassistenten beobachtet. [17], [18]

Mit ChatGPT erreichen Chatbots eine neue Dimension. Sie können auf vielfältige Weise reagieren und originelle Antworten generieren. Ihre Fähigkeit, sich an frühere Unterhaltungen zu erinnern, ermöglicht eine kontinuierliche und personalisierte Interaktion, womit sie sich von aktuellen Sprachassistenten wie Alexa, Siri und Co. abheben. [19] Es ist naheliegend, dass das DIL-Modell auf Chatbots übertragbar ist, da sie eine gemeinsame technologische und soziale Grundlage mit Sprachassistenten teilen. Zukünftige Forschung sollte diese Übertragbarkeit genauer untersuchen und gegebenenfalls neue Kompetenzen für den selbstbestimmten Umgang mit Chatbots bestimmen. Es bleibt jedoch abzuwarten, inwieweit zukünftige Entwicklungen im Bereich sprachbasierter KI-Systeme neue Anforderungen an die Nutzenden stellen werden.

Vergleichbarkeit mit analogen Phänomenen

Auch außerhalb der digitalen Welt werden Menschen von persönlichen Assistentinnen und Assistenten unterstützt. In einigen Hotels gibt es Concierges, die den Gästen beispielsweise die Buchung von Abendessen oder Besorgungen abnehmen. Sowohl Sprachassistenten als auch Concierges übernehmen Aufgaben wie den Einkauf, damit die Person währenddessen anderen Aufgaben wie beispielsweise einem Meeting nachgehen kann.

Neben Sprachassistenten benötigen auch Concierges zunächst persönliche Informationen über die Interessen der Kundinnen und Kunden, um Aufgaben möglichst passend zu erledigen. Im Gegensatz zu Sprachassistenten sind Concierges nicht auf digitale Schnittstellen angewiesen. Sie können beispielsweise auch einen Tisch in einem Restaurant reservieren, selbst wenn das Restaurant keine Website hat. Allerdings sind sie im Vergleich zu Sprachassistenten nicht in der Lage, mehrere Anfragen gleichzeitig zu bearbeiten. Die digitalisierte Welt hilft ihnen jedoch dabei, Aufgaben schneller abzuarbeiten.

Sprachassistenten haben ein hohes persuasives Potenzial: Sie können vertrauenswürdiger auf Nutzende wirken, ihnen persönliche Informationen entlocken oder darauf einwirken, dass ihren Ratschlägen gefolgt wird. [7], [20] Gleiches gilt auch für analoge Phänomene, wie im Fall einer/eines Concierge. Es ist möglich, dass Gästen ein unpassendes Restaurant empfohlen wird, da das Restaurant der/dem Concierge eine Provision für die Empfehlung zahlt. Möglich wäre auch, dass Gäste weniger Kritik am unpassenden Restaurant äußern, wenn sie den/die Concierge bereits länger kennen. Effekte dieser Art werden umso ausgeprägter sein, je tiefer die Bindung, Sympathie und das Vertrauen zwischen den Gästen und der/dem Concierge ist. [21], [22], [23] Sprachassistenten können dieses Phänomen verstärken, da die sprachbasierten KI-Systeme direkt in das persönliche Umfeld der Nutzenden integriert sind und so schnell eine persönliche Beziehung aufbauen können. [24]

Auch wenn der Sprachassistent über viele Informationen der Nutzenden verfügt, sind diese (teilweise) in der Lage, ihre Identität oder ihre Daten zu schützen. Durch gesetzliche Richtlinien können sie die Herausgabe oder Löschung ihrer Daten veranlassen. Da auch Daten über Gäste in Hotels gespeichert werden, gelten hier ähnliche Richtlinien. Außerdem ist es für Hotelgäste schwieriger, ihre Anonymität zu wahren, da sie oft direkt mit Menschen interagieren.

Gesellschaftliche Relevanz

Die digitale Welt bietet sowohl Herausforderungen als auch Chancen, bei denen die Verbesserung der Digital Interaction Literacy (DIL) entscheidend sein kann. Eine gezielte Unterstützung kann es allen Menschen ermöglichen, selbstbestimmt mit sprachbasierten KI-Systemen wie Smart Speakern oder Chatbots zu interagieren. Zudem hilft sie, sich vor Persuasion zu schützen und sich sicher in einer technologiegeprägten Landschaft zu bewegen. Trainings spielen dabei eine immer wichtigere Rolle, um die Nutzenden zu einer effektiven und reflektierten Interaktion mit KI-Technologien zu befähigen.[25], [26] Genau hier setzt die Onlinetrainingsplattform des Projekts MOTIV der Universität Würzburg an. Auf der Plattform werden Kompetenzen des DIL-Modells in mehreren Modulen trainiert. Lernende können ihr Wissen rund um sprachbasierte KI-Systeme mittels instruktionspsychologisch optimierten Lerntexten sowie Lernvideos erweitern. Interaktive Aufgaben und Gamification-Elemente unterstützen den Lernzuwachs. Alle Trainings finden im Onlineformat statt und sind kostenlos. Dadurch wird sichergestellt, dass sie für eine heterogene Zielgruppe zugänglich sind und eine breite Beteiligung gefördert wird. Die Trainingsplattform soll auf diese Weise die Möglichkeit zum eigenständigen Lernen bieten und zur Überwindung der digitalen Kluft beitragen.

Quellen

  1. Kang, H./Oh, J. (2023). Communication privacy management for smart speaker use: Integrating the role of privacy self-efficacy and the multidimensional view. In: New Media & Society 25(5), 1153–1175. https://doi.org/10.1177/14614448211026611
  2. Lutz, C./Newlands, G. (2021). Privacy and smart speakers: A multi-dimensional approach. In: The Information Society 37(3), 147–162. https://doi.org/10.1080/01972243.2021.1897914
  3. Nass, C./Steuer, J./Tauber, E. R. (1994). Computers are social actors. Proceedings of the SIGCHI conference on Human factors in computing systems. Boston, Massachusetts (USA).
  4. Purington, A. et al. (2017). „Alexa is my new BFF“ Social roles, user satisfaction, and personification of the Amazon Echo. Proceedings of the 2017 CHI conference extended abstracts on human factors in computing systems. Denver, Colorado (USA).
  5. Gaiser, F./Utz, S. (2023). Is hearing really believing? The importance of modality for perceived message credibility during information search with smart speakers. In: Journal of Media Psychology: Theories, Methods, and Applications. https://doi.org/10.1027/1864-1105/a000384
  6. Rzepka, C./Berger, B./Hess, T. (2020). Why another customer channel? Consumers’ perceived benefits and costs of voice commerce. Proceedings of the 53rd Hawaii International Conference on System Sciences., Honolulu, (Hawaii).
  7. Wienrich, C./Reitelbach, C./Carolus, A. (2021). The trustworthiness of voice assistants in the context of healthcare investigating the effect of perceived expertise on the trustworthiness of voice assistants, providers, data receivers, and automatic speech recognition. In: Frontiers in Computer Science 3, 685250. https://doi.org/10.3389/fcomp.2021.685250
  8. Luger, E./Sellen, A. (2016). "Like Having a Really Bad PA" The Gulf between User Expectation and Experience of Conversational Agents. Proceedings of the 2016 CHI conference on human factors in computing systems, San Jose, California, USA.
  9. Pasquale, F. (2015). The black box society: The secret algorithms that control money and information. Harvard University Press. https://doi.org/10.4159/harvard.9780674736061.c8
  10. Carolus, A.et al. (2023). Digital interaction literacy model–Conceptualizing competencies for literate interactions with voice-based AI systems. In: Computers and Education: Artificial Intelligence 4, 100114. https://doi.org/10.1016/j.caeai.2022.100114
  11. Görnemann, E. (2019). Sprachassistenten – Funktion, Markt und Datenschutz. Digitale Woche Kiel, Kiel.
  12. Goetsu, S./Sakai, T. (2020). Different types of voice user interface failures may cause different degrees of frustration. arXiv preprint arXiv:2002.03582. https://doi.org/10.48550/arXiv.2002.03582
  13. Kim, S./Choudhury, A. (2021). Exploring older adults’ perception and use of smart speaker-based voice assistants: A longitudinal study. In: Computers in Human Behavior, 124, 106914. https://doi.org/10.1016/j.chb.2021.106914
  14. Chetty, K. et al. (2018). Bridging the digital divide: measuring digital literacy. In: Economics 12(1), 20180023. https://doi.org/10.5018/economics-ejournal.ja.2018-23
  15. Bălan, C. (2023). Chatbots and voice assistants: digital transformers of the company–customer interface—a systematic review of the business research literature. In: Journal of Theoretical and Applied Electronic Commerce Research 18(2), 995–1019. https://doi.org/10.3390/jtaer18020051
  16. Konya-Baumbach, E/Biller, M./von Janda, S. (2023). Someone out there? A study on the social presence of anthropomorphized chatbots. In: Computers in Human Behavior 139, 107513. https://doi.org/10.1016/j.chb.2022.107513
  17. Lee, Y.-C. et al. (2020). „I hear you, I feel you“: Encouraging deep self-disclosure through a chatbot. Proceedings of the 2020 CHI conference on human factors in computing systems, New York (United States).
  18. Moon, Y. (2000). Intimate exchanges: Using computers to elicit self-disclosure from consumers. Journal of consumer research 26(4), 323–339. https://doi.org/10.1086/209566
  19. Chaturvedi, R. et al. (2023). Social companionship with artificial intelligence: Recent trends and future avenues. In: Technological Forecasting and Social Change, 193, 122634. https://doi.org/10.1016/j.techfore.2023.122634
  20. Voorveld, H. A./Araujo, T. (2020). How social cues in virtual assistants influence concerns and persuasion: The role of voice and a human name. In: Cyberpsychology, Behavior, and Social Networking 23(10), 689–696. https://doi.org/10.1089/cyber.2019.0205
  21. Bower, A. B./Landreth, S. (2001). Is beauty best? Highly versus normally attractive models in advertising. In: Journal of advertising 30(1), 1–12. https://doi.org/10.1080/00913367.2001.10673627
  22. Ladhari, R./Massa, E./Skandrani, H. (2020). YouTube vloggers’ popularity and influence: The roles of homophily, emotional attachment, and expertise. In: Journal of Retailing and Consumer Services 54, 102027. https://doi.org/10.1016/j.jretconser.2019.102027
  23. De Meza, D./Irlenbusch, B./Reyniers, D. J. (2010). Disclosure, trust and persuasion in insurance markets. IZA Discussion Paper No. 5060. http://dx.doi.org/10.2139/ssrn.1648345
  24. Wang, J. et al. (2020, April). Alexa as coach: Leveraging smart speakers to build social agents that reduce public speaking anxiety. Proceedings of the 2020 CHI conference on human factors in computing systems (pp. 1–13), New York, (USA). https://doi.org/10.1145/3313831.3376561
  25. Long, D./Magerko, B. (2020). What is AI literacy? Competencies and design considerations. Proceedings of the 2020 CHI conference on human factors in computing systems, Honolulu (Hawaii).
  26. Ng, D. T. K. et al. (2021). Conceptualizing AI literacy: An exploratory review. In: Computers and Education: Artificial Intelligence 2, 100041. https://doi.org/10.1016/j.caeai.2021.100041