nd-aktuell.de / 13.11.2025 / Wissen

Maschinelles Lernen ohne Vorurteile?

Ein neuer Datensatz soll Verzerrungen in KI-Modellen erkennen

Jutta Blume
KI-Systeme neigen oft zu Verzerrungen hinsichtlich Gender und Herkunft.
KI-Systeme neigen oft zu Verzerrungen hinsichtlich Gender und Herkunft.

Obwohl Unternehmen mit den meisten Anwendungen Künstlicher Intelligenz bisher kaum Geld verdienen, wird etwa Chat-GPT-Entwickler Open AI[1] an der Börse mit einer halben Billion Dollar bewertet. Die Ressourcen der KI sind – neben großen Mengen von Energie – Daten. Daten, die in der Regel in den Weiten des Internets zusammengesucht werden und für die die Unternehmen wenig bis nichts bezahlen. Einen Erfolg vor Gericht gegen Open AI erzielte gerade die Gema, die in der Nutzung und Ausgabe von Songtexten durch ChatGPT die Rechte der von ihr vertretenen Urheber*innen[2] verletzt sah. Allerdings ist gegen das Urteil des Landgerichts München noch Berufung möglich.

Doch KIs eignen sich alle möglichen Inhalte an, nicht nur die Werke organisierter Urheber*innen. Was ist mit privatem Bildmaterial, das zuhauf im Netz geteilt wird? Inwiefern fließt es, von Clickworkern[3] mit zum Teil falschen Beschreibungen versehen, in die Trainingsdaten großer KI-Modelle?

Ein Forschungsteam des Unternehmens Sony AI hat Anfang November im Fachjournal »Nature« einen ethischen Bild-Datensatz für KI vorgestellt[4]. Ethisch soll dieser auf zwei Ebenen sein: Zum einen wurden diejenigen, die ihre Bilder freiwillig zur Verfügung stellten und auch selbst beschrifteten, dafür entlohnt, zum anderen soll die Bilddatenbank auch diverser sein als gängige Trainingsdatensätze. Denn bislang krankt die KI häufig unter Vorurteilen und Verzerrungen der Realität. Allerdings ist der von Sony AI »Fair Human-Centric Image Benchmark« (FHIBE, auf Deutsch: Maßstab für gerechte Mensch-zentrierte Bilder) viel zu klein, um daran selbst künstliche Intelligenzen zu trainieren. Er werde öffentlich zur Verfügung gestellt und diene der Bewertung von KI-Systemen der Bilderkennung, zum Beispiel der Gesichtserkennung und -verifizierung, wie Sony AI schreibt.

Dieser Datensatz besteht aus über 10 000 Einzelbildern von fast 2000 Personen aus 81 Ländern oder Regionen. Neben der Diversität des Materials spielen die Anmerkungen dazu eine wichtige Rolle, wie das Forschungsteam von Alice Xiang in »Nature« schreibt: »Durch die Nutzung umfassender Anmerkungen, die demografische und physische Merkmale, Umweltfaktoren sowie Anmerkungen auf Instrumenten- und Pixelebene erfassen, kann FHIBE eine Vielzahl von Verzerrungen identifizieren.«

Beispielsweise hätte mit FHIBE festgestellt werden können, dass einige Modelle weniger akkurat waren, wenn es um Personen ging, die weibliche Pronomen verwenden. Laut Sony AI wurde dies auf die größere Variabilität der Frisuren zurückgeführt.

Judith Simon, Professorin für Ethik in der Informationstechnologie an der Universität Hamburg, bewertet FHIBE als besonders gut darin, intersektionale Voreingenommenheit zu erkennen: »Das sind systematische Verzerrungen, welche nicht nur eine Kategorie, sondern mehrere Kategorien gleichzeitig betreffen, beispielsweise Geschlecht, Herkunft und Alter.«

Wenn Vorurteile in einem KI-System erkannt werden, kann dieses nachtrainiert werden. Anstelle eines Kontrolldatensatzes einen großen, ethisch generierten Trainingsdatensatz zu erstellen, erscheint hingegen unrealistisch. Der Informatiker Björn Ommer von der Ludwig-Maximilians-Universität München erklärt: »Demgegenüber nutzen viele große KI-Anbieter weiterhin Web-Scraping-Daten, also automatisch aus dem Internet gesammelte Inhalte, häufig ohne Einwilligung.« Die KI-Modelle würden auf Milliarden von Trainingsbeispielen trainiert, und bei FHIBE hätten nur 10 000 Bilder 750 000 US-Dollar gekostet.

Viele große KI-Anbieter nutzen automatisch aus dem Internet gesammelte Inhalte.

Björn Ommer Informatiker

Sony-AI-Sprecherin Rebecca Garcia sagt auf nd-Nachfrage: »Es gibt keine primären oder sekundären finanziellen Anreize für das Projekt. Es wird der Industrie zur Verfügung gestellt, in der Hoffnung, dass KI auf verantwortungsvollere Weise entwickelt wird.«

Ob eine weniger vorurteilsbehaftete KI auch auf ethische Weise genutzt wird, ist allerdings eine andere Frage, denn hier geht es unter anderem um Gesichtserkennung[5]. »Gesichtserkennung birgt große Gefahren für den Schutz der Privatsphäre und unserer Freiheiten, selbst wenn die Grundlagenforschung dazu höchsten ethischen Maßstäben genügt«, gibt Judith Simon zu bedenken.

Links:

  1. https://www.nd-aktuell.de/artikel/1194254.rechenzentren-nvidia-und-openai-investment-mit-rueckschein.html
  2. https://www.nd-aktuell.de/artikel/1194296.maschinelles-lernen-kriminelle-intelligenz.html
  3. https://www.nd-aktuell.de/artikel/1193785.kuenstliche-intelligenz-digitalisierung-die-menschliche-arbeit-ist-die-magie.html
  4. https://www.nature.com/articles/s41586-025-09716-2
  5. https://www.nd-aktuell.de/artikel/1193907.intelligente-kameras-ki-ueberwachung-entert-oeffentlichen-raum.html