Wie divers ist eigentlich künstliche Intelligenz?
Software mit künstlicher Intelligenz kommt in zahlreichen Anwendungen zum Einsatz, so etwa in Sprachmodellen, sogenannten Large Language Models (LLMs), wie ChatGPT. Obwohl LLMs auf mathematischen Verfahren basieren, sind ihre Ergebnisse nicht automatisch neutral: Sie können geschlechtsspezifische Vorurteile sowie homophobe oder rassistische Stereotypisierungen reproduzieren. Wie divers sind also Sprachmodelle und was sollten Nutzerinnen und Nutzer beachten?

Obwohl Sprachmodelle auf mathematischen Verfahren basieren, sind ihre Ergebnisse nicht automatisch neutral: Sie können etwa geschlechtsspezifische Vorurteile reproduzieren. (Symbolbild: Adobe Stock)
Amazon sorgte im Jahr 2018 für Negativschlagzeilen. Ein KI-Tool, das Personalrekrutierungen automatisieren sollte, bevorzugte die Bewerbungen von Männern gegenüber denen von Frauen. Für Prof. Dr. Beatrice Paoli, Leiterin des Instituts Laboratory for Web Science (LWS) der FFHS, zeigt dieses Beispiel die Problematik sehr deutlich: «Das System wurde mit historischen Bewerbungen trainiert, die überwiegend von Männern stammten. Daher bevorzugt die KI männliche Kandidaten, was technisch gesehen korrekt, gesellschaftlich jedoch problematisch ist. Hier spricht man vom Gender Data Gap: Frauen fehlen in den Daten oder sind unterrepräsentiert.»
Die Personalauswahl ist gemäss Dr. Danuta Paraficz, KI-Wissenschaftlerin beim LWS, von Natur aus schwierig und anfällig für Voreingenommenheit, unabhängig davon, ob die Entscheidung von einem Menschen oder einer Maschine getroffen wird. Ist es also einfacher, Voreingenommenheit aus dem «Kopf» einer KI zu entfernen als aus dem der Menschen? «Während menschliche Vorurteile oft unbewusst und tief verwurzelt sind, spiegelt die Voreingenommenheit einer KI vorhandene Daten wider. Sobald wir diese Muster identifizieren, können wir den Algorithmus mathematisch anpassen oder die Daten bereinigen und so die Fairness des Systems im Grunde auf eine Weise neu programmieren, was beim Menschen unmöglich ist», so Danuta Paraficz.
Frau liegt nahe an Krankenschwester
Die Forschung zeigt: Bekannte gesellschaftliche Vorurteile sind in Sprachmodellen messbar. Forschende nutzen dazu die Methode «Word Embeddings», bei der Wörter als numerische Vektoren in einem mehrdimensionalen Raum dargestellt werden. Dadurch wird ihre Bedeutung durch ihre Lage und Nähe zueinander abgebildet. Ähnliche Wörter liegen dabei nah beieinander, sodass semantische Beziehungen mathematisch erfassbar und für KI-Modelle nutzbar werden. «Wenn man den Abstand zwischen den Wörtern misst, stellt man beispielsweise fest, dass ‹Führungskraft› näher an ‹Mann› liegt, während ‹Krankenschwester› näher an ‹Frau› liegt», erklärt Danuta Paraficz.
Im Vorfeld des internationalen Frauentags 2024 deckte eine UNESCO-Studie besorgniserregende Tendenzen bei grossen Sprachmodellen auf. Diese neigen dazu, Inhalte zu generieren, die geschlechterspezifische Vorurteile beinhalten oder sich negativ über homosexuelle Menschen und ethnische Gruppen äussern.
Es braucht bewusst kuratierte Datensätze
Gemäss Beatrice Paoli benötigen diversere Sprachmodelle ausgewogenere und bewusst kuratierte Datensätze, systemische Tests wie «Bias Detection und Mitigation», divers zusammengesetzte Entwicklungsteams und menschliche Kontrolle. Unternehmen, die KI-Tools entwickeln, tragen gemäss Danuta Paraficz eine ethische und rechtliche Verantwortung. Angesichts globaler Regulierungen wie dem EU AI Act (erste Verordnung zur Regulierung von künstlicher Intelligenz) sei die Beseitigung von Bias kein optionales «Extra» mehr, sondern eine fundamentale Sorgfaltspflicht. Grosse Tech-Konzerne müssen durch transparente Datenauswahl und kontinuierliche Tests beweisen, dass technische Effizienz niemals auf Kosten der menschlichen Würde geht.
Und was müssen Nutzerinnen und Nutzer von Sprachmodellen beachten, um nicht auf solche Stereotypen hereinzufallen? Dazu Beatrice Paoli: «Antworten von Sprachmodellen müssen immer kritisch hinterfragt werden. Man sollte bewusst nach anderen Perspektiven fragen und Ergebnisse nicht als absolute Wahrheit sehen.» Für Danuta Paraficz besteht die eigentliche Herausforderung nicht nur darin, die Software zu reparieren, sondern sich mit der Tatsache auseinanderzusetzen, dass die Stereotypen fest in der Geschichte verankert sind.