Wissen
Künstliche Intelligenz

Wie ChatGPT und Co sprechen gelernt haben

Die Chatbots erzeugen syntaktisch aber nicht unbedingt inhaltlich richtige Aussagen

Matthias Becker
08.06.2023, 15:41 Uhr
Lesedauer: 6 Min.

Das Ziel der künstlichen Intelligenz ist es, Maschinen zu entwickeln, die sich verhalten, als verfügten sie über Intelligenz.» So definierte John McCarthy, einer der Gründerväter der Computerwissenschaften, im Jahr 1955 dieses Forschungsgebiet. In den knapp sieben Jahrzehnten, die seitdem vergangen sind, hat die Programmierkunst erstaunliche Fortschritte gemacht. Mit ChatGPT können wir uns unterhalten, als verstünde das Programm unsere Aufforderungen und Fragen tatsächlich. Die sogenannten großen Sprachmodelle (large language models, LLM) können die natürliche Sprache täuschend echt erzeugen. Wie funktioniert das?

«ChatGPT ist wie ein Papagei, an dem sehr, sehr viele Menschen vorbeigegangen sind», lautet ein Spruch, der im Netz die Runde macht. Tatsächlich plappert das Programm wie ein Papagei Worte nach und schielt dabei auf eine Belohnung. Aber anders als der Papagei sucht es nach dem Ausdruck, der am besten zu dem bereits Gesagten passt. Die größere Leistungsfähigkeit der neuen LLM beruht darauf, dass sie in gewissem Umfang und mit allerlei Rechentricks den Kontext eines bestimmten Ausdrucks berücksichtigen.

Bekanntlich verarbeiten Computer Zahlen, keine Worte oder Sätze. Der Papagei hofft auf ein Leckerli, die Algorithmen der LLM berechnen einen optimalen Wert. Dafür nutzen sie typischerweise Bruchstücke von Worten als Grundeinheit, nicht einzelne Buchstaben und auch keine vollständigen Worte. Das Wort «Papagei» beispielsweise würde als die Tokens «PA» und «GEI» kodiert. Hinzu kommen «Stop-Tokens», die anzeigen, dass ein Satz beendet ist. Diese Tokens werden durchnummeriert und bilden das Vokabular, das in einer Art Katalog abgelegt wird. (Die folgenden Beispiele nutzen trotzdem ganze Worte, weil es das Verständnis erleichtert.)

Häufige Wortfolgen

Die Funktionsweise von LLM ähnelt den Vorschlägen, die uns das Mobiltelefon macht, wenn wir eine SMS schreiben. Das Programm T9 schlägt Ausdrücke vor, die oft auf das eingetippte Wort folgen – «Tag» auf «Guten» –, ähnlich die Ergänzungen bei Suchmaschinen (Google Auto Complete). Solche Programme basieren schlicht auf der Häufigkeit und berücksichtigen nur das vorangegangene Wort.

LLM dagegen bilden die Beziehungen aller Elemente zueinander ab. Jedem Token werden mehrere Werte zugeordnet, die die Stärke ihrer Beziehung zu anderen Tokens ausdrücken. So entsteht eine Wahrscheinlichkeitsverteilung. Wenn wir uns ein solches Modell als Raum vorstellen, in dem alle Worte (oder Wortteile) einen bestimmten Platz einnehmen, dann erzeugt das Programm Vektoren, die wie Pfeile von einem Wort zum nächsten führen. Das Wort «Guten» bezieht sich häufig auf «Tag», entsprechend nahe beieinander wären sie zu finden. Dieser Raum hat allerdings deutlich mehr Dimensionen als die drei, in denen wir uns bewegen.

Das Programm berechnet das jeweils nächstgelegene Wort, indem es den Input als Vektor darstellt und durch ein künstliches neuronales Netz schickt (das heißt, eine Optimierung mit Matrizenmultiplikation). So funktioniert die Verarbeitung natürlicher Sprache (Natural Language Processing, NLP) schon seit Längerem. Solche Programme übersetzen von einer Sprache in eine andere oder fassen zusammen.

Das Problem: Die Bezüge in einem Text sind nicht starr, sondern wandeln sich. Auch wenn zwei Ausdrücke in einem Text weit entfernt voneinander stehen, können sie inhaltlich eng verbunden sein. Beispielsweise könnte eine Antwort auf «Guten Tag!» lauten: «Vielen Dank, aber er ist in Wirklichkeit alles andere als gut». Das Wort «er» bezieht sich auf «Tag», obwohl das Token erst nach fünf anderen Worten auftaucht.

Training der Algorithmen

Mit solchen Zusammenhängen kommt die «Transformer»-Methode besser zurecht, die sich seit 2017 verbreitet (und die auch ChatGPT zugrunde liegt). Bisherige NLP-Programme bezogen zwar die Position ein, aber auf ziemlich unflexible Weise: Das aktuelle Wort wurde am stärksten gewichtet, das vorangegangene Wort etwas weniger, das Wort davor noch etwas weniger und so weiter. Transformer dagegen gewichten die Bezogenheit entsprechend des ganzen Textumfelds (inklusive der aktuellen Position).

Zunächst werden die Wortverbindungen in der gesamten Eingabe – dem sogenannten Prompt – modelliert. So kann ein Wortteil wie «Haus» in «Hausstaub» je nach Kontext einen anderen Vektor als in «Haushalt» ergeben oder Zahn in «Zahnrad» einen anderen als in «Zahnbürste». Dann arbeitet sich das Programm sequenziell vor, indem es die Vektoren des gegebenen Wortes mit denen der vorangegangenen multipliziert, das Wort oder Stopp-Zeichen mit der größten Wahrscheinlichkeit auswählt und danach zum nächsten Ausdruck übergeht.

Manche der sogenannten generativen Algorithmen werden entwickelt, indem die Entwickler bestimmte Worte «maskieren». Dann wird ein Teil der Tokens auf null gesetzt, ein weiterer Teil wird durch zufällig ausgewählte Tokens ersetzt. Das Modell sucht nun den Ausdruck mit dem höchsten Wahrscheinlichkeitswert, der sich aus den vorangegangenen und den folgenden Ausdrücken ergibt. Beispielsweise könnte in dem Satz «Der Papagei bekommt eine Belohnung» das Wort «Belohnung» entfernt werden. Dem Programm wird beigebracht, aus den zahlreichen Alternativen («Strafe», «Mahlzeit», «Belohnung» etc.) das Token zu finden, das entsprechend des Textumfelds das wahrscheinlichste ist. Bei diesem «Training» handelt es sich um eine Optimierung. Die Parameter in den Schichten eines künstlichen neuronalen Netzes stellen die Verbindungen zwischen den Tokens dar.

LLM tragen ihren Namen zu Recht: GPT-3.5 beispielsweise enthält 175 Milliarden Parameter. Die Modelle vermeiden syntaktisch falsche Wortfolgen, einen Satz wie «Der Papagei bekommt vorgestern» erzeugen sie nicht mehr. Dennoch produzieren sie Aussagen, die syntaktisch korrekt, aber inhaltlich falsch sind. An dieser Stelle kommt nun doch noch die menschliche Vernunft ins Spiel. Verschiedene Aussagen auf einen Prompt werden von Angestellten in eine Rangfolge gebracht, beispielsweise von «1 (sehr gut)» bis «6 (mangelhaft)». Anhand dieser Bewertung wird das LLM erneut optimiert. Die Parameter in einem künstlichen Neuronalen Netz werden angepasst, sodass fortan Aussagen produziert werden, die mutmaßlich die höchste Belohnung erzielen. Diese Methode wird «reinforcement learning from human feedback» genannt und hat ChatGPT so eloquent gemacht.

Belohnungsmodell als Schwachstelle

Der Heißhunger der LLM auf möglichst hohe Belohnungen hat allerdings eine Schattenseite. Wie ein Schüler in einer mündlichen Prüfung vermeidet das System um jeden Preis, eine Antwort schuldig zu bleiben. Stattdessen erzeugt es nicht vorhandene Umstände und erfindet Quellen. Überhaupt neigt ChatGPT zu formal korrekten, aber unkonkreten Aussagen, auch dies ein Effekt des KI-Trainings mit einem Belohnungsmodell.

So beeindruckend ihre Leistungen sind, LLM sind einem Papagei in mancher Weise unterlegen. Diese Systeme verfügen nicht über das, was «starke künstliche Intelligenz» genannt wird: echtes Verständnis, die Fähigkeit zur Analyse oder zum Lernen, Autonomie, Wahrnehmung. Dass viele der erzeugten Aussagen wahr und sinnvoll sind, liegt daran, dass die Eigenschaften der Dinge und ihre kausalen Zusammenhänge den relativen Häufigkeiten in den eingespeisten Texten entsprechen (worauf wir uns auf keinen Fall verlassen sollten). Von einer starken KI sind wir immer noch genauso weit entfernt wie damals, als John McCarthy seine Arbeit aufnahm.

Das »nd« bleibt. Dank Ihnen.

Die nd.Genossenschaft gehört unseren Leser*innen und Autor*innen. Mit der Genossenschaft garantieren wir die Unabhängigkeit unserer Redaktion und versuchen, allen unsere Texte zugänglich zu machen – auch wenn sie kein Geld haben, unsere Arbeit mitzufinanzieren.

Wir haben aus Überzeugung keine harte Paywall auf der Website. Das heißt aber auch, dass wir alle, die einen Beitrag leisten können, immer wieder darum bitten müssen, unseren Journalismus von links mitzufinanzieren. Das kostet Nerven, und zwar nicht nur unseren Leser*innen, auch unseren Autor*innen wird das ab und zu zu viel.

Dennoch: Nur zusammen können wir linke Standpunkte verteidigen!

Mit Ihrer Unterstützung können wir weiterhin:

→ Unabhängige und kritische Berichterstattung bieten.
→ Themen abdecken, die anderswo übersehen werden.
→ Eine Plattform für vielfältige und marginalisierte Stimmen schaffen.
→ Gegen Falschinformationen und Hassrede anschreiben.
→ Gesellschaftliche Debatten von links begleiten und vertiefen.

Seien Sie ein Teil der solidarischen Finanzierung und unterstützen Sie das »nd« mit einem Beitrag Ihrer Wahl. Gemeinsam können wir eine Medienlandschaft schaffen, die unabhängig, kritisch und zugänglich für alle ist.