Im Umgang mit moderner KI sind auch KI-Experten eher wie Goethes/Disneys “Zauberlehrling”: Sie sehen, was berechnet wird, verstehen aber nicht im Detail, wie es passiert. Anthropic bietet nun mit “Tracing the thoughts of a large language model” neue Einblicke darin, wie KI „denkt“. Sie behandeln spannenden Fragen wie: “Denkt KI in verschiedenen Sprachen?“, “Berechnet sie wirklich nur das nächste Wort?“ oder “Kann sie erklären, wie sie denkt?“

Abb. 1: Wie denkt KI? – Quelle: Anthropic, “Tracing the thoughts of a large language model”

Dieser Beitrag ist mein (Andi Kunar) Versuch, diese Beispiel-Themen auf Deutsch verständlich zu erklären. Die Erkenntnisse stammen von Anthropic, und sind bezüglich ihrer großen, leistungsfähigen, klassischen KI “Claude 3.5 Haiku”. Die beschriebenen Konzepte gelten vor allem für diese Art von KI, geben aber interessante Hinweise auf allgemeine Tendenzen./

Zuerst, einige Erklärungen zu den Erkenntnissen:

Wie hat Anthropic in die KI hineingeschaut?

Auch wenn anthropomorphe Begriffe für KI ausserhalb der KI-Szene umstritten sind, können sie helfen, ein besseres Verständnis zu entwickeln – besonders wenn wir bedenken, dass KI nach menschlichem Vorbild entwickelt wurde. Anthropic hat hier Claude mit neurologisch inspirierten Methoden untersucht, um Muster in den „feuernden“ künstlichen Neuronen zu analysieren.

KI bleibt aber letztlich doch ein zutiefst nichtmenschliches “Alien”, hier versuchen wir zu verstehen, wie dieses in einigen Aspekten genauer funktioniert.

Klassische KI oder die neue “Nachdenke”-KI (reasoner models)

Klassische KI-Textmodelle wie OpenAI GPT 4.5, Anthropic Claude 3.5 Haiku und Meta Llama antworten schnell und spontan, ähnlich dem “schnellen Denken” beim Menschen. Im Gegensatz dazu generieren die neuen “Nachdenke”-KI-Modelle (auf engl. reasoner models) zunächst für sich selbst einen Text über mögliche Vorgehen, bevor sie die eigentliche Antwort für den Benutzer generieren. Dies ähnelt dem “langsamen Denken” beim Menschen. Beispiele für “Nachdenke”-KI-Modelle sind OpenAI O1/O3, Claude 3.7 Sonnet und das chinesische DeepSeek R1. Während die Antworten dieser “Nachdenke”-KI-Modelle für viele Fragestellungen signifikant besser sind, benötigen sie dafür weit länger und viel mehr Ressourcen. Sowohl “schnelles” als auch “langsames” Denken sind wichtig, abhängig von der Aufgabe.

Die folgenden Erkenntnisse von Anthropic beziehen sich nur auf die klassische KI, die sofort und spontan antwortet.


Denkt KI in verschiedenen Sprachen?

Claude beherrscht viele Sprachen – doch “denkt” die KI dabei in einer universellen Sprache, oder entwickelt sie für jede Sprache eigene Denkmuster?

Anthropic fand heraus, dass große Sprachmodelle beim Training tatsächlich viele sprachunabhängige bzw. mehrsprachige Denkmuster im künstlichen neuronalen Netzwerk entwickeln – je größer die KI umso eher und mehr davon. Diese werden dann mit sprachspezifischem Wissen kombiniert, um passende Antworten zu generieren.

Abb.2: Sprachverständnis – Quelle: Anthropic

Das bedeutet: Claudes spontane Antwortüberlegungen passieren im Detail in einer eigenen, multilingualen Sprache. Und die dabei entstandenen Konzepte werden am Ende in die passende Sprache für jedes generierte Token (d.h. Wort oder Wortteil) umgesetzt. Große KI-Modelle bilden mehr ihrer internen Konzepte sprachunabhängig aus.

Berechnet die KI wirklich nur das nächste Wort?

Eine klassische Sprach-KI (also kein spezielles “Reasoning-Modell”) antwortet technisch nicht mittels irgendeines “Nachdenkens”, sondern erzeugt spontan das nächste passende Token – basierend auf dem gesamten bisherigen Text. Aber ist das “Passende” wirklich immer nur für das nächste, oder hat die KI eine Art Plan wie es danach weitergehen soll, wohin sie will?

Anthropic hat dafür untersucht, wie sich Antworten verändern, wenn bestimmte Begriffe im neuronalen Netz deaktiviert oder ersetzt werden – selbst wenn diese Begriffe erst später in der Antwort relevant wären. Um eben festzustellen, ob in der Spontaneität doch auch etwas vorausschauend geplant wird, oder die KI bloss nur das nächste Token berechnet.

Abb.3: Planungsfähigkeiten – Quelle: Anthropic

Erklärung zur Grafik: Im Beispiel soll sich die Antwort auf „grab it“ reimen. Die Strategie der KI ist daher, den nächsten Satz mit „rabbit“ zu beenden. Und Token zu erfinden, die zum Ziel “rabbit” passen.

Wird der KI „rabbit“ jedoch künstlich blockiert, wählt Claude stattdessen etwas anderes Reimendes – „habit“. Wenn wiederum „green“ anstelle des erkannten Zielkonzeptes „rabbit“ eingesetzt wird – obwohl das den Reim bricht –, generiert die KI dennoch einen anderen, aber sinnvollen Satz.

Das zeigt: Claude wählt Wörter so, dass sie strategisch auf spätere Satzteile hinarbeiten – es gibt also eine Form der „Planung“ bei der Generierung von Antworten.

Sagt uns die KI wirklich, wie sie denkt?

Wir können Claude z. B. nach einer Berechnung fragen: Was ist 36 + 59? und anschließend fragen, wie die KI zur Lösung kam: Wie bist du auf das Ergebnis gekommen?

Bild der KI-Antworten:
1) 95
2) klassisches Ziffernweises Addieren mit Übertrag von den einern weg
Abb. 4: Berechnung – Quelle: Anthropic

Die Antwort für die Berechnungsmethode basiert hier auf dem Lernmaterial-Wissen der KI. Das Problem dabei ist aber, dass beim spontanen Antworten einer klassischen KI diese Art von mehrstufiger Addition eigentlich gar nicht möglich ist. Es war ja ausschliesslich und sofort das Ergebnis, nicht Zwischenergebnisse oder die Berechnung dazu gefragt. Trotzdem passte zuerst das Ergebnis – danach kam dann die Abfrage nach der Methode dafür.

Die initiale interne Berechnung der KI verlief ganz anders – Claude hat das Ergebnis zugleich grob geschätzt und gleichzeitig die letzte Ziffer präzise bestimmt, dies dann zusammengefügt.

Bild: Die KI schätzt gleichzeitig das ungefähre Ergebnis und die letzte Ziffer
Abb. 5: Unerwartetes Verhalten – Quelle: Anthropic

Meiner Meinung nach ist dies eindeutig eine “Unerwartete Fähigkeit” (emergent ability) dieser KI, auch wenn Anthropic dies in ihrer Erklärung nicht explizit erwähnt. Claude hatte wahrscheinlich kein explizites Lernmaterial für diese Methode, aber sie scheint sich während des Lernprozesses intern entwickelt zu haben.

Was sind “Unerwartete Fähigkeiten” (emergent abilities) einer KI?

Zunächst lernt die KI durch Imitation, aber speichert die Lerninformationen nicht direkt. Stattdessen entdeckt sie selbstständig zugrundeliegende Muster (Konzepte) in den Daten. Wenn sie Fragen beantwortet, nutzen diese dann diese entstandenen Musterfabriken, welche die Informationen des Lernmaterials extrem stark und nicht verlustfrei komprimiert beinhalten, um die Informationen für jede Antwort neu zu erfinden. Bei großen, komplexen KI-Modellen mit umfangreichem Lernmaterial entstehen dabei auch Musterkonzepte, die so nicht direkt im Lernmaterial enthalten waren. Diese Muster können der KI unerwartete Fähigkeiten (emergent abilities) ermöglichen, Wie hier eben die Kombination von Schätzung mit Ziffer-Addition für schnelle und genaue Berechnungen.

Das heißt: Die KI weiß manchmal gar nicht, wie sie intern zur Antwort gekommen ist – und erklärt ihr Vorgehen dann mit explizit Gelerntem, das aber nicht immer ihrem tatsächlichen Vorgehen entspricht.


Mehr Beispiele und Details findet ihr im Originalartikel “Tracing the thoughts of a large language model” von Anthropic.
Der zugehörige Fachartikel “On the Biology of a Large Language Model” geht noch deutlich tiefer ins Detail.
Viel Spaß beim Lesen – oder beim Anschauen des sehr gelungenen Videos!