• Wissen
  • Künstliche Intelligenz

Maschinelles Lernen ohne Vorurteile?

Ein neuer Datensatz soll Verzerrungen in KI-Modellen erkennen

KI-Systeme neigen oft zu Verzerrungen hinsichtlich Gender und Herkunft.
KI-Systeme neigen oft zu Verzerrungen hinsichtlich Gender und Herkunft.

Obwohl Unternehmen mit den meisten Anwendungen Künstlicher Intelligenz bisher kaum Geld verdienen, wird etwa Chat-GPT-Entwickler Open AI an der Börse mit einer halben Billion Dollar bewertet. Die Ressourcen der KI sind – neben großen Mengen von Energie – Daten. Daten, die in der Regel in den Weiten des Internets zusammengesucht werden und für die die Unternehmen wenig bis nichts bezahlen. Einen Erfolg vor Gericht gegen Open AI erzielte gerade die Gema, die in der Nutzung und Ausgabe von Songtexten durch ChatGPT die Rechte der von ihr vertretenen Urheber*innen verletzt sah. Allerdings ist gegen das Urteil des Landgerichts München noch Berufung möglich.

Doch KIs eignen sich alle möglichen Inhalte an, nicht nur die Werke organisierter Urheber*innen. Was ist mit privatem Bildmaterial, das zuhauf im Netz geteilt wird? Inwiefern fließt es, von Clickworkern mit zum Teil falschen Beschreibungen versehen, in die Trainingsdaten großer KI-Modelle?

nd.Kompakt – unser täglicher Newsletter

Unser täglicher Newsletter nd.Kompakt bringt Ordnung in den Nachrichtenwahnsinn. Sie erhalten jeden Tag einen Überblick zu den spannendsten Geschichten aus der Redaktion. Hier das kostenlose Abo holen.

Ein Forschungsteam des Unternehmens Sony AI hat Anfang November im Fachjournal »Nature« einen ethischen Bild-Datensatz für KI vorgestellt. Ethisch soll dieser auf zwei Ebenen sein: Zum einen wurden diejenigen, die ihre Bilder freiwillig zur Verfügung stellten und auch selbst beschrifteten, dafür entlohnt, zum anderen soll die Bilddatenbank auch diverser sein als gängige Trainingsdatensätze. Denn bislang krankt die KI häufig unter Vorurteilen und Verzerrungen der Realität. Allerdings ist der von Sony AI »Fair Human-Centric Image Benchmark« (FHIBE, auf Deutsch: Maßstab für gerechte Mensch-zentrierte Bilder) viel zu klein, um daran selbst künstliche Intelligenzen zu trainieren. Er werde öffentlich zur Verfügung gestellt und diene der Bewertung von KI-Systemen der Bilderkennung, zum Beispiel der Gesichtserkennung und -verifizierung, wie Sony AI schreibt.

Dieser Datensatz besteht aus über 10 000 Einzelbildern von fast 2000 Personen aus 81 Ländern oder Regionen. Neben der Diversität des Materials spielen die Anmerkungen dazu eine wichtige Rolle, wie das Forschungsteam von Alice Xiang in »Nature« schreibt: »Durch die Nutzung umfassender Anmerkungen, die demografische und physische Merkmale, Umweltfaktoren sowie Anmerkungen auf Instrumenten- und Pixelebene erfassen, kann FHIBE eine Vielzahl von Verzerrungen identifizieren.«

Beispielsweise hätte mit FHIBE festgestellt werden können, dass einige Modelle weniger akkurat waren, wenn es um Personen ging, die weibliche Pronomen verwenden. Laut Sony AI wurde dies auf die größere Variabilität der Frisuren zurückgeführt.

Judith Simon, Professorin für Ethik in der Informationstechnologie an der Universität Hamburg, bewertet FHIBE als besonders gut darin, intersektionale Voreingenommenheit zu erkennen: »Das sind systematische Verzerrungen, welche nicht nur eine Kategorie, sondern mehrere Kategorien gleichzeitig betreffen, beispielsweise Geschlecht, Herkunft und Alter.«

Wenn Vorurteile in einem KI-System erkannt werden, kann dieses nachtrainiert werden. Anstelle eines Kontrolldatensatzes einen großen, ethisch generierten Trainingsdatensatz zu erstellen, erscheint hingegen unrealistisch. Der Informatiker Björn Ommer von der Ludwig-Maximilians-Universität München erklärt: »Demgegenüber nutzen viele große KI-Anbieter weiterhin Web-Scraping-Daten, also automatisch aus dem Internet gesammelte Inhalte, häufig ohne Einwilligung.« Die KI-Modelle würden auf Milliarden von Trainingsbeispielen trainiert, und bei FHIBE hätten nur 10 000 Bilder 750 000 US-Dollar gekostet.

Viele große KI-Anbieter nutzen automatisch aus dem Internet gesammelte Inhalte.

Björn Ommer Informatiker

Sony-AI-Sprecherin Rebecca Garcia sagt auf nd-Nachfrage: »Es gibt keine primären oder sekundären finanziellen Anreize für das Projekt. Es wird der Industrie zur Verfügung gestellt, in der Hoffnung, dass KI auf verantwortungsvollere Weise entwickelt wird.«

Ob eine weniger vorurteilsbehaftete KI auch auf ethische Weise genutzt wird, ist allerdings eine andere Frage, denn hier geht es unter anderem um Gesichtserkennung. »Gesichtserkennung birgt große Gefahren für den Schutz der Privatsphäre und unserer Freiheiten, selbst wenn die Grundlagenforschung dazu höchsten ethischen Maßstäben genügt«, gibt Judith Simon zu bedenken.

- Anzeige -

Andere Zeitungen gehören Millionären. Wir gehören Menschen wie Ihnen.

Die »nd.Genossenschaft« gehört ihren Leser*innen und Autor*innen. Sie sind es, die durch ihren Beitrag unseren Journalismus für alle zugänglich machen: Hinter uns steht kein Medienkonzern, kein großer Anzeigenkunde und auch kein Milliardär.

Dank der Unterstützung unserer Community können wir:

→ unabhängig und kritisch berichten
→ Themen ins Licht rücken, die sonst im Schatten bleiben
→ Stimmen Raum geben, die oft zum Schweigen gebracht werden
→ Desinformation mit Fakten begegnen
→ linke Perspektiven stärken und vertiefen

Mit »Freiwillig zahlen« tragen Sie solidarisch zur Finanzierung unserer Zeitung bei. Damit nd.bleibt.