Yann LeCun, Mitbegründer der modernen KI, verlässt Meta und attackiert das gesamte Large-Language-Model-Paradigma: Systeme wie ChatGPT oder Claude könnten niemals zu echter künstlicher Intelligenz führen, weil sie nicht planen können und keine Weltmodelle besitzen. Seine Kritik offenbart mehr als nur technische Limitationen – sie zeigt eine systemische Blockade, in der sich die KI-Industrie durch Pfadabhängigkeiten selbst gefangen hält. Doch LeCuns Position ist umstritten: Andere Forscher verweisen auf messbare Fortschritte, praktischen Nutzen und unterschätzte Emergenz-Effekte. Während Milliarden in die Skalierung von Sprachmodellen fließen, stellt sich die Frage: Führt diese Investition zu Durchbrüchen oder in eine Sackgasse? Für Multi-Agenten-Systeme im Finanzwesen und E-Commerce bedeutet das fundamentale Unsicherheit: Sind heutige „AI-Agenten“ echte autonome Systeme oder glorifizierte Chatbots? Ein Essay über selbstreferentielle Fallen, empirische Fortschritte, strukturelle Trägheit und die Frage, wie man strategisch handelt, wenn niemand weiß, welches Paradigma gewinnt.
1. Systemische Blockade durch Pfadabhängigkeiten Die KI-Industrie hat sich durch massive Investitionen in LLM-Infrastruktur (Hunderte Milliarden Dollar) selbst in eine selbstreferentielle Falle manövriert. Technische, personelle und regulatorische Lock-Ins erschweren einen Paradigmenwechsel erheblich – unabhängig davon, ob er technisch nötig wäre. Das System definiert „Erfolg“ nach eigenen Kriterien und blendet externe Realität zunehmend aus.
2. Aktuelle „KI-Agenten“ simulieren Handlungsfähigkeit, besitzen sie aber nicht Was heute als „agentic AI“ vermarktet wird, sind LLM-Wrapper mit Skript-Logik, keine autonomen Systeme mit echten Weltmodellen. Sie haben keine: Interne Repräsentation von Zuständen und Kausalzusammenhängen Fähigkeit zur vorausschauenden Planung Robustes counterfactual reasoning Theory of Mind für Multi-Agenten-Interaktion Implikation: Für kritische Anwendungen (Finanzwesen, autonome Systeme, Medizin) sind aktuelle „Agenten“ nicht geeignet – sie simulieren Intelligenz, demonstrieren sie aber nicht.
3. Die empirische Frage ist offen: Führt Skalierung zu qualitativen Sprüngen? LeCuns Position: Nein – LLMs können architekturell keine echte Planung und kausales Verständnis entwickeln, egal wie groß sie werden. Gegenposition (Krishnan, Scaling-Optimisten): Ja – empirische Fortschritte von GPT-3.5 zu GPT-4 zu o1 zeigen messbare Verbesserungen bei Reasoning, möglicherweise emergieren weitere Fähigkeiten. Status: Die Frage ist empirisch, nicht philosophisch. Sie wird sich in den nächsten 2-3 Jahren beantworten, wenn die nächste Generation von Modellen zeigt, ob Verbesserungen weitergehen oder asymptotisch gegen ein Limit laufen.
4. Drei Szenarien sind möglich – mit unterschiedlichen strategischen Implikationen Szenario 1 – Graduelle Evolution (45%): LLMs werden inkrementell mit Weltmodell-Komponenten erweitert, Hybrid-Architekturen entstehen. Bestehende Infrastruktur bleibt nutzbar, fundamentale Limitationen werden graduell gemildert. Szenario 2 – Disruptiver Bruch (25%): Durchbruch bei alternativen Architekturen macht LLMs obsolet. Massive Kapitalvernichtung, neue Gewinner entstehen. China könnte als Late Mover profitieren. Szenario 3 – Parallele Welten (30%): LLMs dominieren kommerzielle Anwendungen („good enough“), echte autonome Agenten bleiben Spezialdomain. Technologische Bifurkation in zwei separate Ökosysteme. Wahrscheinlichste Entwicklung: Kombination – kurzfristig Szenario 1, mittelfristig Richtung Szenario 3, mit geringer aber realer Chance auf Szenario 2.
5. Epistemische Demut ist die strategisch klügste Haltung Die wichtigste Einsicht: Wir wissen nicht, wer Recht hat – und das zu akzeptieren ist ehrlicher als vorschnelle Gewissheiten. Falsche Strategie: Auf ein Szenario wetten und alles darauf setzen. Richtige Strategie: Robustheit gegenüber verschiedenen Szenarien entwickeln: Diversifikation: Portfolio-Ansatz in KI-Forschung und -Anwendung Flexibilität: Reversible Entscheidungen, Pfadabhängigkeiten minimieren Pragmatismus: LLMs nutzen wo sie Wert schaffen, parallel Alternativen erforschen Kritische Evaluation: PR-Schere erkennen, aber nicht in Zynismus verfallen Für Deutschland/Europa: Nicht blind skalieren (USA-Modell), nicht ignorieren (Technikskepsis), sondern strategisch diversifizieren und strukturell flexibel bleiben.
Fazit in einem Satz LeCuns Kritik offenbart reale systemische Blockaden und technische Limitationen, aber die Situation ist komplexer und offener als ein simples „LLMs sind eine Sackgasse“ – die klügste Haltung ist nicht zu wissen wer Recht hat, sondern handlungsfähig zu bleiben während sich die Evidenz entwickelt.
I. Die selbstreferentielle Falle: Wenn Systeme ihre eigene Kommunikation für Realität halten
Als Yann LeCun im November 2025 Meta verließ und sein Start-up AMI Labs gründete, war das mehr als eine Personalentscheidung. Es war ein öffentlicher Bruch mit dem herrschenden Paradigma. LeCun, Turing-Award-Gewinner und einer der Väter der neuronalen Netze, formuliert eine vernichtende Diagnose[1]An A.I. Pioneer Warns the Tech ‘Herd’ Is Marching Into a Dead End: Large Language Models führen in eine technologische Sackgasse. Sie simulieren Intelligenz durch statistische Wahrscheinlichkeiten, besitzen aber keine Denkfähigkeit, können nicht planen und werden niemals zu echter künstlicher Intelligenz (AGI) führen.
Die Dramatik dieser Kritik erschließt sich erst, wenn man sie systemtheoretisch einordnet. In Niklas Luhmanns Terminologie befinden wir uns in einer Situation operativer Geschlossenheit: Das Wirtschaftssystem der KI-Industrie operiert auf Basis von Zahlungen, die weitere Zahlungen auslösen – und verliert dabei den Kontakt zur technischen Realität.
Die Mechanik der Selbstverstärkung
Die Kapitalmobilisierung für LLM-Infrastruktur hat eine klassische selbstreferentielle Schleife in Gang gesetzt:
Erste Phase – Investitionen erzeugen Erwartungsstrukturen: Die spektakulären Fortschritte von GPT-3 zu GPT-4 schienen eine simple Regel zu bestätigen: More is more. Mehr Parameter, mehr Trainingsdaten, mehr Rechenleistung gleich bessere Ergebnisse. Venture Capital, strategische Investoren und Tech-Giganten mobilisierten Milliarden auf dieser Prämisse. OpenAIs Bewertung stieg auf über 150 Milliarden Dollar, Anthropic sammelte mehrere Milliarden ein, und der gesamte Tech-Stack – von Nvidia-GPUs über Cloud-Infrastruktur bis zu spezialisierten ML-Frameworks – orientierte sich an diesem Paradigma.
Zweite Phase – Erwartungen strukturieren Anschlussinvestitionen: Jede neue Finanzierungsrunde bestätigt das Paradigma und zwingt Wettbewerber zum Mitziehen. Google reagiert mit Gemini, Amazon mit Titan, Microsoft verdoppelt seine OpenAI-Investitionen. Ein komplettes Ökosystem entsteht: Finetuning-Dienstleister, Prompt-Engineering-Consultants, spezialisierte Hardware-Hersteller. Universitäten richten Studiengänge aus, Regierungen definieren KI-Politik entlang von LLMs, Regulierung (EU AI Act) nimmt diese Architektur als gegeben.
Dritte Phase – Das System wird selbstreferentiell: Die Kriterien für „Erfolg“ werden nun innerhalb des Systems selbst definiert. Benchmarks messen, was LLMs gut können (Sprachverständnis, Textgenerierung), nicht was sie fundamental nicht können (kausales Denken, Planung, Antizipation von Handlungsfolgen). Die Kommunikation des Systems – „AGI ist nahe“, „Next-Gen-Modelle revolutionieren alles“, „Superintelligenz bis 2027“ – wird zur Realität, auf die weitere Investitionen reagieren.
Der blinde Fleck: Die ignorierte Umwelt
Luhmann würde diagnostizieren: Das System beobachtet seine Umwelt nur noch durch die Brille des eigenen Codes (zahlen/nicht zahlen). Was außerhalb dieser Logik liegt – LeCuns Weltmodell-Ansatz, der kurzfristig keine vermarktbaren Produkte verspricht – wird systematisch ausgeblendet.
Die PR-Schere
Bei LLMs öffnet sich die PR-Schere zwischen Realität und kommunizierter Wirklichkeit
- Kommunikation: „Unsere Modelle nähern sich menschlicher Intelligenz“,
- Transformative Durchbrüche stehen bevor“
Operative Realität: Modelle scheitern an simplen logischen Rätseln, halluzinieren bei faktischen Aufgaben, können nicht planen, haben kein kausales Verständnis
Das System behandelt seine eigene Kommunikation als Realität. OpenAI kündigt GPT-5 an, alle Konkurrenten müssen mitziehen, Investoren extrapolieren exponentielles Wachstum – aber niemand stellt die Grundannahme in Frage, ob mehr Skalierung überhaupt zu qualitativen Sprüngen führen kann.
II. Pfadabhängigkeit als strukturelle Falle
Die Ökonomie kennt für solche Situationen den Begriff der Pfadabhängigkeit (Paul David, Brian Arthur): Frühe Weichenstellungen schränken spätere Optionen drastisch ein, selbst wenn überlegene Alternativen existieren.
Die drei Dimensionen des Lock-In
Technische Pfadabhängigkeit: Die gesamte ML-Infrastruktur ist auf Transformer-Architekturen optimiert. Nvidia baut GPUs für massive Matrix-Multiplikationen, Cloud-Provider bieten spezialisierte LLM-Services, Frameworks wie PyTorch und TensorFlow sind auf diese Workloads zugeschnitten. Ein Wechsel zu fundamentally anderen Architekturen – etwa LeCuns energie-basierten Modellen oder Weltmodell-Ansätzen – würde massive Teile dieses Stacks obsolet machen.
Personelle Pfadabhängigkeit: Eine ganze Generation von AI-Engineers hat Expertise in Prompt-Engineering, Finetuning, RLHF (Reinforcement Learning from Human Feedback) und LLM-Deployment aufgebaut. Universitäten bilden für dieses Paradigma aus, Karrierepfade orientieren sich daran. Ein Paradigmenwechsel entwertete abrupt einen großen Teil dieses Humankapitals.
Regulatorische Pfadabhängigkeit: Datenschutz-Debatten, Copyright-Fragen, Safety-Standards – die gesamte regulatorische Architektur bezieht sich auf LLMs als Default-Technologie. Neue Ansätze müssten den kompletten Regulierungsprozess von vorn durchlaufen.
Abschreibungen als Veränderungsbarriere
Ein Paradigmenwechsel hätte massive ökonomische Konsequenzen:
- Milliarden-Investitionen in Rechenzentren müssten abgeschrieben werden
- Tech-Bewertungen würden kollabieren (OpenAI, Anthropic, große Teile von Nvidia)
- Geschäftsmodelle müssten neu erfunden werden
Das erzeugt strukturellen Widerstand, unabhängig von der technischen Überlegenheit alternativer Ansätze. Es ist nicht Böswilligkeit oder Ignoranz, sondern rationales ökonomisches Kalkül: Solange LLMs Umsätze generieren und Investoren zufrieden sind, fehlt der Anreiz für riskante Fundamentalinnovation.
Historische Präzedenzfälle
Die Technologiegeschichte kennt vergleichbare Situationen:
- QWERTY-Tastatur: Nachweislich suboptimal für Tippgeschwindigkeit, aber durch Netzwerkeffekte und Pfadabhängigkeiten zementiert. Alternative Layouts (Dvorak, Colemak) sind technisch überlegen, setzen sich aber nicht durch.
- VHS vs. Betamax: Nicht das qualitativ bessere System setzte sich durch, sondern das mit mehr Momentum und Netzwerk-Effekten.
- Verbrennungsmotor: Trotz früher Elektroautos dominierte ein Jahrhundert lang fossile Technologie, weil Infrastruktur, Industrie und Expertise darauf ausgerichtet waren.
- Der entscheidende Unterschied: Bei LLMs geht es – falls LeCun Recht hat – nicht um marginale Optimierungen, sondern um eine kategoriale Fehlentwicklung. Als würde die gesamte Automobilindustrie PS-Zahlen optimieren, während das eigentliche Problem darin besteht, Mobilität ohne Pferde zu realisieren.
III. Die geopolitische Asymmetrie: Chinas struktureller Vorteil
LeCuns Warnung vor einem chinesischen Technologie-Vorsprung ist systemtheoretisch faszinierend. Während westliche Systeme durch Pfadabhängigkeiten festgelegt sind, könnte China als Late Mover diese Fallen vermeiden.
Das historische Muster des Leapfrogging
Die Wirtschaftsgeschichte zeigt: Späteinsteiger können etablierte Technologieführer überholen, gerade weil sie nicht an legacy infrastructure hängen:
- Deutschland im 19. Jahrhundert: Überholte England industriell, weil es modernere Fabriken ohne Rücksicht auf existierende Anlagen bauen konnte
- Japan in der Elektronik: Dominierte, weil es nicht an Röhrentechnologie gebunden war
Südkorea bei Mobilfunk: Übersprang Festnetz-Infrastruktur direkt zu 3G/4G
China könnte bei KI ähnlich profitieren. Während OpenAI, Anthropic und Google Hunderte Milliarden in LLM-Infrastruktur versenkt haben und nun gezwungen sind, diese Assets zu monetarisieren, arbeiten chinesische Forschungseinrichtungen parallel an alternativen Architekturen. DeepSeek, Alibaba DAMO Academy und universitäre Institute experimentieren mit Weltmodellen, neuro-symbolischen Ansätzen und energie-basierten Modellen.
Strukturelle Vorteile durch Offenheit
Paradoxerweise könnte Chinas System – trotz politischer Kontrolle – in der KI-Forschung strukturell offener sein:
- Weniger Kapital-Lock-In: Chinesische Tech-Konzerne haben zwar in LLMs investiert, aber nicht im Umfang westlicher Giganten. Die Opportunitätskosten eines Paradigmenwechsels sind geringer.
- Staatliche Koordination: Während im Westen jede Firma ihr eigenes LLM baut (OpenAI, Anthropic, Google, Meta, Microsoft, Amazon), kann China Forschung koordinieren und Redundanzen vermeiden.
- Regulatorische Flexibilität: Keine langwierigen Debatten über Copyright, keine DSGVO-Konformität – neue Ansätze können schneller getestet werden.
- Open-Source-Kultur: Trotz westlicher Narrative ist chinesische KI-Forschung oft offener. Alibaba veröffentlicht Qwen-Modelle vollständig, DeepSeek publiziert aggressiv – während OpenAI, Anthropic und Google zunehmend auf Closed Source setzen.
Das Szenario der strategischen Überraschung
Wenn chinesische Forschungsgruppen in 3-5 Jahren Weltmodell-basierte Systeme zur Marktreife bringen, während westliche Firmen noch GPT-7 oder Claude-5 optimieren, wäre das ein klassischer asymmetrischer Schock. Die gesamte westliche KI-Industrie hätte dann in die falsche Technologie investiert – mit entsprechenden geopolitischen und wirtschaftlichen Konsequenzen.
IV. Was sind eigentlich „Agenten“? Die Illusion der Handlungsfähigkeit
Die systemische Blockade hat direkte Konsequenzen für ein zentrales Versprechen der KI-Industrie: autonome Agenten. Was heute als „agentic AI“ vermarktet wird – von AutoGPT über BabyAGI bis zu kommerziellen „AI agents“ –, sind im Kern LLM-Wrapper mit primitiver Skript-Logik.
Die Architektur aktueller „Agenten“
Ein typisches System funktioniert so:
- Prompt-Loop: Das LLM erhält eine Aufgabe („Buche einen Flug nach Berlin“)
- Tool-Calling: Das Modell generiert Text, der wie API-Aufrufe aussieht
- Execution Layer: Ein Skript interpretiert diesen Text und ruft tatsächlich APIs auf
- Iteration: Ergebnisse werden zurück ins LLM gefüttert, nächste Aktion wird generiert
- Stopp-Bedingung: Primitive Zustandsmaschine entscheidet, wann „fertig“
Das Problem: An keiner Stelle existiert ein internes Modell der Welt, echte Planung oder Antizipation von Handlungsfolgen. Das System simuliert agentic behavior, indem es Text generiert, der wie Planung aussieht.
Was ein echter Agent benötigt
In der klassischen KI-Forschung (Russell/Norvig) und in LeCuns neuem Ansatz zeichnet sich ein Agent durch fundamentale Eigenschaften aus:
1. State Representation: Interne Repräsentation des aktuellen Weltzustands. Nicht als Text, sondern als strukturierte Datenhaltung, die kausale Zusammenhänge erfasst.
2. Transition Model: Explizites Verständnis, wie Aktionen Zustände verändern. „Wenn ich Aktion X ausführe, wird mit Wahrscheinlichkeit p_1 Zustand Y eintreten, mit p_2 Zustand Z.“
3. Goal-Directed Planning: Fähigkeit, Handlungssequenzen zu suchen, die von Zustand A nach Zustand Z führen. Nicht durch Token-Generierung, sondern durch systematische Exploration des Zustandsraums.
4. Counterfactual Reasoning: „Was wäre gewesen, wenn ich stattdessen Y getan hätte?“ – die Basis für Lernen aus Fehlern und strategische Anpassung.
5. Theory of Mind: Bei Multi-Agenten-Systemen zusätzlich: Modellierung anderer Agenten, Antizipation ihrer Reaktionen, strategische Interaktion.
LLMs besitzen keine dieser Eigenschaften. Sie generieren Token mit hoher Wahrscheinlichkeit, die wie Planung aussehen, aber keine tatsächliche Planung darstellen.
Beispiel: Agentic Commerce
Betrachten wir ein konkretes Szenario aus dem E-Commerce – einem Bereich, in dem „AI agents“ massiv beworben werden:
Aufgabe: „Kaufe die beste DSLR-Kamera unter 1500€“
LLM-basierter „Agent“ heute:
- Durchsucht Produktdatenbanken via Search API
- Generiert Vergleichstabelle nach statistisch plausiblen Kriterien
- „Entscheidet“ sich für Option mit besten Durchschnittswerten
- Problem: Keine Preisdynamik-Modellierung, keine Antizipation von Saisonrabatten, kein Verständnis von Supply-Chain-Verzögerungen, keine echte Verhandlung
Echtes agentic System mit Weltmodell:
- Preisdynamik: Modelliert basierend auf historischen Daten: „Dieser Produkttyp sinkt typischerweise im Q4 um 15-20%“
- Supply Chain: Integriert Informationen: „Hersteller X hat Produktionsprobleme → aktuelle Lieferzeit 8 Wochen → Alternativhersteller priorisieren“
- Multi-Step-Strategie: Plant Sequenz: „Zuerst vergleichen, beste Option auf Watchlist, Preisalarm setzen, nach 2 Wochen neu bewerten, bei Trigger kaufen“
- Verhandlung mit anderen Agenten: Wenn Verkäufer-Agent ebenfalls KI-gestützt: „Verkäufer bietet 1450€, mein Modell sagt Preisverfall voraus → Gegenangebot 1300€, Kompromiss bei 1375€“
Der Unterschied ist fundamental: Das LLM-System simuliert diese Überlegungen durch Textgenerierung. Das Weltmodell-System führt sie tatsächlich aus durch interne Zustandsraumsuche.
V. Multi-Agenten-Systeme: Die nächste Komplexitätsstufe
Wenn einzelne Agenten schon Weltmodelle benötigen, wird es bei Multi-Agenten-Systemen (MAS) exponentiell komplexer – und hier zeigt sich die fundamentale Unzulänglichkeit des LLM-Ansatzes besonders deutlich.
Die Anforderungen
In einem echten MAS muss jeder Agent:
1. Andere Agenten modellieren: Theory of Mind – Was sind deren Ziele, Fähigkeiten, wahrscheinliche nächste Schritte?
2. Koordination ermöglichen: Gemeinsame Ontologien und Kommunikationsprotokolle. Was bedeutet „dringend“ für Agent A vs. Agent B?
3. Emergentes Verhalten antizipieren: Komplexe Systeme zeigen unvorhersehbare Dynamiken. Beispiel: Flash Crash 2010, wo Trading-Algorithmen sich gegenseitig aufschaukelten.
4. Strategisch interagieren: Kooperation und Wettbewerb, Verhandlung, Koalitionsbildung.
LLMs in Multi-Agenten-Szenarien: Das Koordinationsproblem
Aktuell werden Multi-Agenten-Systeme als „mehrere LLMs, die miteinander chatten“ implementiert. Das führt zu grotesken Ineffizienzen:
- Kommunikations-Overhead: Agenten „sprechen“ in natürlicher Sprache statt strukturierten Protokollen
- Keine echte Koordination: Jeder Agent generiert unabhängig Text, Abstimmung erfolgt durch weitere Text-Iterationen
- Emergente Instabilität: LLMs halluzinieren, andere LLMs reagieren auf Halluzinationen, positiver Feedback-Loop
- Keine strategische Tiefe: „Verhandlung“ ist Textgenerierung, die wie Verhandlung aussieht, aber keine echte Game-Theoretic optimization
Implikationen für Finanzwesen und Commerce
Für die Bereiche, die Sie analysieren – Payment-Systeme, Banking, agentic commerce protocols – sind die Konsequenzen erheblich:
Problem 1 – Intransparente Entscheidungen: Warum hat der Agent genau dieses Produkt gekauft? „Das LLM hat es generiert“ ist keine befriedigende Antwort für regulatorische Compliance.
Problem 2 – Keine Haftbarkeit: Wenn ein Agent einen Vertrag abschließt, der sich als nachteilig erweist – wer haftet? Der Agent kann nicht erklären, wie er zur Entscheidung kam, weil es keine bewusste Entscheidung gab, nur statistisch plausible Textgenerierung.
Problem 3 – Manipulierbarkeit: Prompt Injection als Angriffsvektor. Ein böswilliger Akteur könnte Produktbeschreibungen so formulieren, dass LLM-Agenten systematisch manipuliert werden.
Problem 4 – Keine echte Verhandlung: In B2B-Kontexten, wo Käufer-Agent und Verkäufer-Agent interagieren sollten, findet keine echte strategische Verhandlung statt. Es ist Improv-Theater: Beide Seiten generieren Text, der wie Verhandlung klingt.
Was Weltmodell-basierte Agenten ermöglichen würden
Mit LeCuns Ansatz – Agenten, die interne Repräsentationen der Umwelt aufbauen und Handlungsfolgen antizipieren können – wären folgende Szenarien möglich:
Autonome Preisverhandlung: Agent simuliert verschiedene Verhandlungsstrategien, modelliert Gegenpartei, findet Pareto-optimale Lösungen.
Supply-Chain-Koordination: Multiple Agenten (Lieferant, Logistik, Händler) koordinieren sich durch geteilte Weltmodelle, antizipieren Engpässe, optimieren gemeinsam.
Finanzmarkt-Interaktion: Trading-Agenten mit echten Marktmodellen, die nicht nur Preismuster erkennen, sondern Kausalzusammenhänge verstehen und makroökonomische Faktoren einbeziehen.
Regulatory Compliance: Entscheidungen wären nachvollziehbar, weil der Agent erklären kann: „Ich habe Optionen A, B, C simuliert, basierend auf meinem Modell hatte A den höchsten Expected Value unter Constraint X.“
VI. Die Gegenrede: Warum LeCun möglicherweise zu pessimistisch ist
LeCuns Kritik ist scharf und systemtheoretisch schlüssig – aber sie ist nicht unumstritten. Innerhalb der KI-Community gibt es gewichtige Gegenstimmen, die auf empirische Fortschritte, praktischen Nutzen und unterschätzte Emergenz-Effekte verweisen. Eine ausgewogene Analyse muss diese Positionen ernst nehmen.
Position 1: Kontinuierliche messbare Verbesserungen (Rayan Krishnan, Vals AI)
Krishnan argumentiert empirisch: LLMs verbessern sich weiterhin messbar, insbesondere in Bereichen, die LeCun für fundamental unmöglich hält – logisches Schlussfolgern, mathematisches Reasoning, Programmierung.
Die Evidenz:
GPT-4 zu o1: Massive Verbesserungen bei formaler Logik und mathematischen Beweisen
Code-Generierung: Von „kann einfache Funktionen schreiben“ zu „löst komplexe Algorithmus-Probleme auf Competitive-Programming-Niveau“
Chain-of-Thought und Self-Consistency: LLMs entwickeln durch iteratives Reasoning Fähigkeiten, die ursprünglich unmöglich schienen
Das Gegenargument zu LeCun:
Vielleicht braucht es keine expliziten Weltmodelle, wenn statistische Muster bei genügender Skalierung emergente reasoning-Fähigkeiten hervorbringen. LeCun sagt „LLMs können nicht planen“ – aber aktuelle Modelle zeigen durchaus Ansätze von Vorausschau und strategischem Denken, wenn auch auf andere Weise als klassische Planer.
Die philosophische Frage:
Ist „echtes“ Denken eine ontologische Kategorie, oder ist es funktional definiert? Wenn ein System Aufgaben löst, die Planung erfordern – spielt es dann eine Rolle, wie es das tut? Krishnan würde sagen: Solange die Performance steigt, ist der Mechanismus sekundär.
Kritische Einordnung:
Diese Position hat Gewicht. Die Fortschritte von GPT-3.5 zu GPT-4 zu o1 sind real und beeindruckend. Aber sie lässt zwei Fragen offen:
Skalierungsgrenzen: Sind diese Verbesserungen linear weiter fortsetzbar, oder nähern wir uns asymptotisch einem Plateau?
Kategoriale Lücken: Gibt es Fähigkeiten (echte Kausalität, robuste Planung unter Unsicherheit), die durch Skalierung fundamental nicht erreichbar sind?
Position 2: Praktischer Nutzen trotz theoretischer Limitationen (Subbarao Kambhampati, Arizona State)
Kambhampati ist faszinierend, weil er LeCuns theoretische Kritik teilt, aber zu anderen praktischen Schlussfolgerungen kommt. Seine Position: Ja, LLMs haben fundamentale Limitationen – aber sie sind trotzdem nützlich und ökonomisch wertvoll.
Die Nuancierung:
LLMs sind keine „echten“ Agenten, sondern kognitive Werkzeuge. Sie erweitern menschliche Fähigkeiten, ersetzen sie aber nicht. Das ist kein Bug, sondern Feature.
Konkrete Anwendungsfälle, wo LLMs ohne Weltmodelle funktionieren:
Assistenz-Systeme: GitHub Copilot braucht kein Weltmodell, um Entwicklern zu helfen. Es muss nicht „verstehen“, sondern statistisch plausible Code-Fortsetzungen generieren.
Content-Transformation: Übersetzung, Zusammenfassung, Umformulierung – alles Aufgaben, die keine tiefe Kausalität erfordern, aber enormen wirtschaftlichen Wert schaffen.
Informations-Retrieval: RAG (Retrieval-Augmented Generation) kompensiert fehlendes Weltwissen durch Zugriff auf Datenbanken. Das System muss die Welt nicht modellieren, nur kompetent mit Informationen umgehen.
Human-in-the-Loop-Szenarien: Bei kritischen Entscheidungen bleibt der Mensch im Loop. Das LLM schlägt vor, der Mensch entscheidet. Hier ist die fehlende Planungsfähigkeit weniger problematisch.
Die ökonomische Realität:
Selbst wenn LLMs niemals AGI erreichen – sie generieren jetzt Milliarden an Wert. Unternehmen steigern Produktivität messbar. Das ist nicht Hype, sondern dokumentierte ROI.
Kritische Einordnung:
Kambhampati hat recht: Die wirtschaftliche Relevanz ist real. Aber das macht LeCuns Kritik nicht falsch – es verschiebt nur die Frage. Nicht „sind LLMs nützlich?“ (ja), sondern „führen sie zu AGI?“ (vermutlich nein) und „blockieren sie bessere Ansätze?“ (möglicherweise).
Diese Position erklärt auch Szenario 3 (Parallele Welten): LLMs dominieren kommerzielle Anwendungen, weil sie für viele Aufgaben ausreichen, während echte autonome Agenten in Spezialdomänen bleiben.
Position 3: Unterschätzte Emergenz und Skalierungsgesetze
Eine dritte Position – vertreten von Forschern bei OpenAI, Anthropic und Google – argumentiert, dass LeCun die Emergenz-Phänomene unterschätzt.
Die Beobachtung:
Fähigkeiten, die bei kleineren Modellen nicht existieren, tauchen plötzlich bei größeren Skalen auf. Niemand hat GPT-3 beigebracht, Analogien zu bilden oder in anderen Sprachen zu antworten – diese Fähigkeiten emergieren.
Die Hypothese:
Vielleicht emergieren auch Planungs- und Reasoning-Fähigkeiten bei weiterer Skalierung. LeCun sagt „das ist architekturell unmöglich“ – aber die Emergenz-Forschung zeigt, dass komplexe Systeme Eigenschaften entwickeln, die nicht aus ihren Komponenten vorhersagbar sind.
Scaling Laws als theoretische Basis:
Die Chinchilla-Forschung und Follow-ups zeigen: Performance skaliert vorhersagbar mit Compute, Daten und Parametern. Wenn diese Gesetze weiter gelten, könnten Modelle mit 10x oder 100x mehr Compute qualitativ neue Fähigkeiten entwickeln.
Kritische Einordnung:
Diese Position ist spekulativ, aber nicht unplausibel. Das Problem: Sie ist unfalsifizierbar bis zum tatsächlichen Versuch. LeCun könnte Recht haben – oder Emergenz könnte ihn widerlegen. Wir wissen es erst, wenn jemand GPT-6 oder GPT-7 trainiert.
Das wirft aber die ökonomische Frage auf: Ist es rational, Hunderte Milliarden auf eine Hypothese zu wetten? Und selbst wenn Emergenz eintritt – garantiert das, dass es der effizienteste Weg ist?
Position 4: Die existenziellen Risiken (Hinton/Bengio vs. LeCun)
Eine ganz andere Debatte: LeCuns frühere Turing-Award-Kollegen Geoffrey Hinton und Yoshua Bengio warnen vor existenziellen Risiken durch KI – eine Position, die LeCun entschieden ablehnt.
Hintons Sorge:
KI-Systeme könnten zu mächtig werden, bevor wir sie kontrollieren können. Er hat Google 2023 verlassen, um freier vor Risiken warnen zu können.
Bengios Warnung:
Superintelligente Systeme könnten Ziele entwickeln, die mit menschlichen Werten inkompatibel sind. Das „Alignment Problem“ ist ungelöst.
LeCuns Gegenposition:
Diese Ängste sind übertrieben und schaden mehr als sie nutzen. Erstens: LLMs sind weit von superintelligent entfernt. Zweitens: Angst ist kein guter Ratgeber für Technologiepolitik. Drittens: Überzogene Regulierung würde Innovation abwürgen.
Die Ironie:
LeCun kritisiert LLMs als zu limitiert für AGI – seine Kollegen warnen, sie könnten zu mächtig werden. Beide Positionen können nicht gleichzeitig richtig sein.
Mögliche Auflösung:
Vielleicht haben beide teilweise Recht:
LeCun: LLMs allein führen nicht zu AGI
Hinton/Bengio: Aber LLMs + andere Komponenten (z.B. Weltmodelle, Agentic Frameworks) könnten zu gefährlich mächtigen Systemen führen
Kritische Einordnung:
Diese Debatte ist wichtig, aber orthogonal zu LeCuns Hauptkritik. Man kann gleichzeitig glauben, dass (a) LLMs fundamentale Limitationen haben UND (b) wir bei KI-Sicherheit vorsichtig sein sollten.
Synthese der Gegenpositionen: Ein differenziertes Bild
Die vier Positionen zeigen: LeCuns Kritik ist nicht der Konsens der Community. Ein ausgewogenes Urteil muss anerkennen:
Was für LeCun spricht:
- Theoretische Fundierung: Seine Argumentation über fehlende Weltmodelle ist schlüssig
- Historische Analogien: Paradigmenwechsel waren oft nötig (von Expert Systems zu ML, von SVMs zu Deep Learning)
- Geopolitische Realität: Chinas experimentierfreudigere Forschung könnte tatsächlich Vorteile bringen
Was gegen LeCun spricht:
- Empirische Fortschritte: Modelle verbessern sich messbar in Bereichen, die er für unmöglich hielt
- Ökonomische Realität: LLMs schaffen jetzt Wert, nicht erst in hypothetischer Zukunft
- Emergenz-Potenzial: Komplexe Systeme können Eigenschaften entwickeln, die nicht vorhersagbar sind
- Praktische Nützlichkeit: Für viele Anwendungen sind „echte“ Weltmodelle nicht nötig
Die zentrale Frage, die bleibt:
Ist die Verbesserung von LLMs inkrementell (asymptotisch gegen ein Limit) oder exponentiell (mit Potenzial für qualitative Sprünge)?
LeCun sagt: inkrementell, Limit ist bereits sichtbar.
Krishnan/Skalierungs-Optimisten sagen: exponentiell, wir sind noch am Anfang.
Wer Recht hat, entscheidet sich empirisch in den nächsten 2-3 Jahren. Falls GPT-5, Claude-4, Gemini-3 keine kategorischen Verbesserungen mehr zeigen, hatte LeCun Recht. Falls doch, müssen seine Kritiker ihre Theorie revidieren.
Implikationen für die Systemtheoretische Analyse
Die Gegenpositionen ändern nichts an der systemtheoretischen Diagnose der Pfadabhängigkeiten und selbstreferentiellen Fallen – aber sie zeigen, dass die Situation komplexer ist:
Szenario A: LeCun hat Recht → Industrie investiert in Sackgasse → Paradigmenwechsel nötig → Massive Disruption
Szenario B: Krishnan hat Recht → Skalierung führt weiter zu Fortschritten → Graduelle Evolution reicht → Disruption vermeidbar
Szenario C: Kambhampati hat Recht → LLMs bleiben nützlich, erreichen aber nie AGI → Parallele Welten → Koexistenz verschiedener Ansätze
Die Pfadabhängigkeiten existieren in allen drei Szenarien – aber ihre Konsequenzen variieren dramatisch.
VII. Die Wegscheide: Drei Szenarien revisited
Unter Berücksichtigung der Gegenpositionen lassen sich die drei Entwicklungspfade nun präziser fassen:
Szenario 1: Graduelle Evolution – „Scaling + Hybrid“
LLMs verbessern sich weiter messbar (à la Krishnan), werden aber inkrementell mit Weltmodell-Komponenten erweitert. Hybrid-Architekturen entstehen:
- LLMs für Sprachinterface, Reasoning und Mustererkennung
- Separate Module für explizite Planung, Zustandsrepräsentation und Kausalität
- Schrittweise Integration durch neuro-symbolische Ansätze
- Emergenz-Effekte bei weiterer Skalierung ergänzen designte Komponenten
Trigger: GPT-5/Claude-4/Gemini-3 zeigen messbare Verbesserungen bei Reasoning, aber auch klare Grenzen. Industrie reagiert mit hybriden Systemen.
Vorteil: Bestehende Infrastruktur bleibt nutzbar, keine radikalen Abschreibungen. Kontinuität statt Disruption. Praktischer Nutzen (à la Kambhampati) wird kontinuierlich gesteigert.
Nachteil: Möglicherweise suboptimal – weder die Eleganz reiner Weltmodell-Ansätze noch die Einfachheit reiner LLMs. „Complexity creep“ durch Komponentenvielfalt. Fundamentale Limitationen bleiben, nur graduell gemildert.
Implikation für Agenten: Multi-Agenten-Systeme werden funktionsfähig für kommerzielle Anwendungen, bleiben aber anfällig (Halluzinationen, Prompt Injection, intransparente Entscheidungen).
Szenario 2: Disruptiver Bruch – „Post-LLM-Revolution“
Ein Durchbruch bei Weltmodellen, Joint-Embedding Architectures oder ganz anderen Ansätzen macht LLMs obsolet. Ähnlich wie Deep Learning die klassische Computer Vision überflüssig machte oder Transformer die RNNs.
Trigger:
- Variante A: Chinesische Forschungsgruppe oder LeCuns AMI Labs demonstriert System, das LLMs bei fundamentalen Aufgaben klar übertrifft – nicht bei Benchmarks, sondern bei echten Planungs-, Kausal- und Reasoning-Tasks
- Variante B: Skalierung erreicht harte Grenzen (Compute-Kosten, Energie, Datenqualität), während alternative Ansätze effizienter sind
Folge: Massive Marktkonsolidierung. Nvidia muss pivotieren (andere Hardware-Anforderungen), OpenAI/Anthropic stehen vor Existenzfrage, neue Gewinner entstehen. Parallele zu Nokia im Smartphone-Zeitalter.
Vorteil: Fundamental leistungsfähigere Systeme. Echte autonome Agenten mit Planungsfähigkeit. Energieeffizienter (LeCuns Ansätze brauchen weniger Compute).
Nachteil: Massive Kapitalvernichtung. Geopolitische Verschiebungen falls China führt. Regulatorische Unsicherheit.
Implikation für Agenten: Erst dann entstehen echte Multi-Agenten-Systeme mit den Eigenschaften, die für kritische Anwendungen (Finanzen, autonome Fahrzeuge, Medizin) nötig sind.
Szenario 3: Parallele Welten – „Arbeitsteilung der Architekturen“
LLMs dominieren kommerzielle Anwendungen (Content, Kundenservice, Assistenz), weil sie für diese Aufgaben „gut genug“ sind und massive Infrastruktur existiert. Echte Agenten mit Weltmodellen bleiben Spezialdomain (Robotik, strategische KI, wissenschaftliche Forschung, Hochsicherheitsbereiche).
Begründung: Kambhampatis Position setzt sich durch – praktischer Nutzen überwiegt theoretische Eleganz. Unternehmen fragen nicht „ist das echte Intelligenz?“, sondern „steigert es ROI?“.
Marktdynamik:
LLM-Track: Consumer-Anwendungen, Enterprise-Software, kreative Tools
Weltmodell-Track: Robotik, autonome Systeme, wissenschaftliche Simulation, militärische Anwendungen
Resultat: Technologische Bifurkation. Zwei separate Ökosysteme mit unterschiedlichen Toolchains, Ausbildungswegen, Geschäftsmodellen und Communities. Wie heute High-Performance-Computing vs. Web-Development – verwandte Felder, aber fundamental verschiedene Kulturen.
Vorteil: Beide Ansätze können sich unabhängig entwickeln. Keine disruptive Kapitalvernichtung. Spezialisierung erhöht Effizienz.
Nachteil: Fragmentierung. Redundante Forschung. Schwierige Integration dort, wo beide Ansätze nötig wären (z.B. humanoide Roboter mit natürlichem Dialog).
Implikation für Agenten: LLM-basierte „Agenten“ dominieren E-Commerce und Kundenservice, aber werden nie für kritische autonome Systeme zugelassen. Echte Agenten bleiben Nische mit hohen Entwicklungskosten.
Welches Szenario ist wahrscheinlicher?
Für Szenario 1 (Graduelle Evolution) spricht:
- Pfadabhängigkeiten machen Disruption teuer
- Bisherige Fortschritte rechtfertigen Fortsetzung
- Ökonomischer Druck auf Kontinuität
- Hybrid-Ansätze sind pragmatisch und politisch konsensfähig
Für Szenario 2 (Disruptiver Bruch) spricht:
- Technologiegeschichte zeigt: Paradigmenwechsel kommen oft unerwartet
- Wenn Skalierung tatsächlich an Grenzen stößt, wird Disruption unvermeidlich
- Geopolitischer Wettbewerb könnte Disruption beschleunigen (China als Wildcart)
- LeCuns theoretische Argumente sind stark
Für Szenario 3 (Parallele Welten) spricht:
- Historische Präzedenz: Technologien koexistieren oft länger als erwartet
- „Good enough“ gewinnt gegen „perfekt“ (VHS, Windows, etc.)
- Unterschiedliche Anwendungsdomänen haben unterschiedliche Anforderungen
- Ökonomische Logik: Warum bestehende Märkte aufgeben?
Die wahrscheinlichste Entwicklung: Eine Kombination. Kurzfristig (2-3 Jahre) Szenario 1 (graduelle Evolution), mittelfristig (5-7 Jahre) Entwicklung Richtung Szenario 3 (Parallele Welten), mit geringer aber realer Chance auf Szenario 2 (disruptiver Bruch), falls technologische oder geopolitische Schocks eintreten.
VIII. Lehren für die deutsche Digitalisierungspolitik
Die LeCun-Debatte – mit allen Gegenpositionen – hat direkte Implikationen für die Frage, wie Deutschland und Europa mit KI-Technologie umgehen sollten:
Lektion 1: Diversifikation statt Monokultur
- Deutsche Unternehmen und Politik sollten nicht reflexartig auf „mehr LLMs“ setzen, nur weil US-Konzerne dies tun – aber auch nicht LLMs ignorieren, nur weil LeCun sie kritisiert.
- Die systemische Analyse zeigt: Massive Kapitalmobilisierung in eine Richtung schafft Pfadabhängigkeiten. Das kann richtig sein (wenn LLMs weiter funktionieren), aber auch katastrophal (wenn LeCun Recht hat und Paradigmenwechsel kommt).
Empfehlung: Portfolio-Ansatz in der KI-Strategie:
- LLMs dort nutzen, wo sie praktischen Wert schaffen (à la Kambhampati)
- Parallel alternative Ansätze erforschen (Weltmodelle, neuro-symbolisch, energie-basiert)
- Gerade weil Deutschland bei LLMs nicht führend ist, könnte Fokus auf Post-LLM-Architekturen strategisch sinnvoll sein (Leapfrogging-Logik)
Aber: Nicht binär entscheiden, sondern diversifizieren
Beispiel: Statt ein „deutsches ChatGPT“ mit Milliarden-Budget (das ohnehin zu spät käme), lieber 5-10 parallele Forschungswege mit je 100-200 Mio. € fördern. Einer davon wird vermutlich scheitern oder irrelevant werden – aber dafür ist man flexibel.
Lektion 2: Die PR-Schere erkennen und benennen
- Unternehmen verkünden „KI-Transformation“
- Tatsächlich: ChatGPT-Wrapper für interne Suche
- Substanz fehlt, weil fundamentale Limitationen ignoriert werden
Aber: Die Gegenposition mahnt zur Vorsicht vor Zynismus. Manche LLM-Anwendungen schaffen echten Wert (Kundenservice-Automatisierung, Code-Assistenz, Content-Transformation). Die PR-Schere existiert, aber nicht alles ist Hype.
Empfehlung: Kritische Evaluation mit differenziertem Blick:
Nicht fragen „nutzt ihr KI/ein LLM?“, sondern „löst es das tatsächliche Problem besser/günstiger als Alternativen?“
Erfolg messen an konkreten KPIs (Produktivitätssteigerung, Kostensenkung, Kundenzufriedenheit), nicht an Marketing-Narrativen
Aber: Echte Erfolge anerkennen, nicht reflexartig alles als Hype abtun
Spezifisch für Multi-Agenten-Systeme: Wenn ein Unternehmen „agentic AI“ verkündet, fragen: Handelt es sich um echte Autonomie mit Planungsfähigkeit, oder um LLM-Wrapper mit API-Calls? Ersteres ist schwer, letzteres ist oft „good enough“ – aber die Unterscheidung ist kritisch.
Lektion 3: Regulierung für technologische Unsicherheit
Der EU AI Act ist vollständig auf LLMs zugeschnitten. Falls sich das Paradigma verschiebt (Szenario 2), ist die Regulierung obsolet bevor sie wirkt. Falls LLMs dominieren (Szenario 1 oder 3), ist sie vermutlich adäquat.
Problem: Wir wissen nicht, welches Szenario eintritt, müssen aber jetzt regulieren.
Empfehlung: Technologie-agnostische, capabilities-basierte Regulierung:
Nicht „LLMs mit X Parametern sind High-Risk“
Sondern „Systeme mit Eigenschaft Y (z.B. Autonomie in kritischen Bereichen) unterliegen Anforderungen Z“
Fokus auf tatsächliche Risiken (Fehleranfälligkeit, Diskriminierung, Manipulation), nicht auf Architektur-Details
Regulierung sollte anpassungsfähig sein („sunset clauses“, regelmäßige Revision)
Konkret: Wenn ein „Agent“ autonome Finanztransaktionen tätigen kann, ist egal ob er LLM-basiert oder weltmodell-basiert ist – die Compliance-Anforderungen sollten gleich sein (Auditierbarkeit, Haftung, Transparenz).
Lektion 4: Open Source als strategisches Asset – mit Nuancen
LeCuns Warnung ist eindeutig: Closed Source schwächt Innovation. China profitiert von offenerer Forschung. Aber die Realität ist komplexer:
Pro Open Source:
- Beschleunigt Forschung (mehr Augen, mehr Experimente)
- Verhindert Lock-In bei einzelnen Anbietern
- Demokratisiert Zugang (wichtig für kleinere Akteure)
- Erhöht Sicherheit durch Transparenz (mehr Prüfung)
Contra Open Source (Gegenargumente):
- Reduziert Anreize für teure Grundlagenforschung (wer investiert Milliarden, wenn Wettbewerber sofort kopiert?)
- Kann Risiken erhöhen (Missbrauchspotenzial bei leistungsfähigen Modellen)
- Nicht alle Daten können offen sein (Privacy, Geschäftsgeheimnisse)
Ausgewogene Empfehlung:
- Forschungsebene: Maximal offen (Papers, Architekturen, Methoden)
Modell-Ebene: Gestuft – kleinere Modelle komplett offen, sehr große Modelle mit responsible disclosure - Daten-Ebene: Synthetische/anonymisierte Datasets offen, echte Nutzerdaten geschützt
Infrastruktur: Europäische Open-Source-Infrastruktur (Compute, Frameworks) als public good
Europäisches Profil: Nicht „geschlossener als USA“, aber auch nicht „naiv offen“. Pragmatischer Mittelweg, der Innovation fördert und Risiken managt.
Lektion 5: Geopolitische Dimension ohne Panik
LeCuns China-Warnung ist ernst zu nehmen, aber nicht zu dramatisieren. Die Logik:
- China hat weniger Pfadabhängigkeiten → könnte flexibler auf Paradigmenwechsel reagieren
- Chinas offenere KI-Forschung könnte Vorteile bringen
- Late-Mover-Advantage ist historisch real
Aber:
- USA/Europa haben weiterhin massive Vorteile (Talentpool, Kapital, Infrastruktur, Chipdesign)
- Chinas „Offenheit“ ist selektiv und staatlich gesteuert
- Technologie-Führerschaft entscheidet sich nicht nur an Architektur-Wahl
Empfehlung:
Nicht: Protektionismus als Reaktion auf Unsicherheit
Sondern: Strukturelle Flexibilität als Wettbewerbsvorteil
Europäische Stärken ausspielen: Regulatorische Kompetenz, Datenschutz-Expertise, Qualität statt Quantität
Kooperationen mit chinesischen Forschungseinrichtungen wo möglich, Absicherung kritischer Bereiche wo nötig
Lektion 6: Epistemische Demut als Strategie
Die wichtigste Lehre: Wir wissen nicht, wer Recht hat. LeCun könnte Recht haben, Krishnan könnte Recht haben, vermutlich haben beide teilweise Recht.
Traditionelle Strategie in Unsicherheit: Wetten auf wahrscheinlichstes Szenario. Problem: Bei hoher Unsicherheit ist das Glücksspiel.
Bessere Strategie: Robustheit gegenüber verschiedenen Szenarien.
Nicht optimieren für Szenario 1, 2 oder 3
Sondern: Positionierung, die in allen drei Szenarien funktioniert
Optionswert maximieren (reversible Entscheidungen), Pfadabhängigkeiten minimieren
Konkret:
- Investitionen in Infrastruktur, die für verschiedene Architekturen nutzbar ist
- Ausbildung, die Grundlagen vermittelt (Mathematik, Informatik) statt nur aktueller Tools
Institutionen, die schnell neue Ansätze aufnehmen können (flexible Forschungsförderung) - Unternehmen, die technologie-agnostische Produkte bauen (nicht „wir sind das LLM-Unternehmen“, sondern „wir lösen Problem X mit bester verfügbarer Technologie“)
IX. Fazit: Zwischen struktureller Trägheit, empirischen Fortschritten und echter Unsicherheit
LeCuns Kritik ist mehr als eine akademische Debatte über Architektur-Details. Sie offenbart eine systemische Blockade, in der sich das herrschende Paradigma durch Pfadabhängigkeiten selbst stabilisiert – aber die Gegenargumente zeigen, dass die Situation komplexer und offener ist als ein simples „LLMs sind eine Sackgasse“.
Was wir mit Sicherheit wissen
- Die selbstreferentielle Dynamik ist real: Investitionen erzeugen Erwartungen, Erwartungen legitimieren weitere Investitionen, das System definiert „Erfolg“ nach eigenen Kriterien. Die PR-Schere existiert – zwischen „AGI ist nahe“ und der operativen Realität begrenzter Planungsfähigkeit.
- Pfadabhängigkeiten wirken: Die technische, personelle und regulatorische Lock-In-Situation macht einen radikalen Paradigmenwechsel zunehmend teuer. Das ist ökonomische Realität, keine Verschwörungstheorie.
- Aktuelle „Agenten“ simulieren mehr als sie sind: Was heute als „agentic AI“ verkauft wird, hat keine echten Weltmodelle, keine robuste Planungsfähigkeit, keine kausalinformierten Entscheidungen. Für kritische Anwendungen (Finanzen, Medizin, autonome Systeme) ist das problematisch.
Was wir nicht mit Sicherheit wissen
- Führt Skalierung zu qualitativen Sprüngen oder nicht? LeCun sagt nein, Krishnan und die Scaling-Optimisten sagen ja. Die Frage ist empirisch, nicht philosophisch – und sie wird sich in den nächsten 2-3 Jahren beantworten.
- Sind Weltmodelle zwingend nötig oder „nur“ optimal? Kambhampati zeigt: Für viele praktische Aufgaben funktionieren LLMs gut genug. Die Frage ist nicht binär (funktioniert/funktioniert nicht), sondern graduell (wie viel besser wären Alternativen?).
- Wie schnell verlaufen Paradigmenwechsel? Technologiegeschichte zeigt: Manchmal sehr schnell (Smartphone-Revolution), manchmal sehr langsam (Elektroauto-Durchbruch). Welches Muster gilt hier?
- Was macht China? Die geopolitische Wildcard bleibt. Wenn China tatsächlich parallele Forschungswege verfolgt und zum Durchbruch kommt, ändert sich alles – aber das ist Spekulation, keine Gewissheit.
Implikationen für strategische Entscheidungen
Für Unternehmen:
- Nicht binär entscheiden (LLMs vs. Alternativen), sondern diversifizieren
- LLMs für „good enough“-Anwendungen nutzen, wo sie Wert schaffen
- Parallel alternative Ansätze beobachten und bei Bedarf pivot-fähig bleiben
- Kritische Systeme nicht vollständig auf LLM-Agenten bauen
Für Forscher:
- LeCuns Kritik ernst nehmen, ohne LLM-Forschung komplett zu verwerfen
- Hybrid-Ansätze als pragmatischen Mittelweg erkunden
- Emergenz-Phänomene systematisch untersuchen (empirische Frage)
- Alternative Architekturen nicht vernachlässigen, auch wenn aktuell weniger gefördert
Für Politik/Regulierung:
- Technologie-agnostische Regulierung (nicht „LLMs sind…“, sondern „Systeme mit Eigenschaft X…“)
- Open Source fördern (Innovation beschleunigen, nicht bremsen)
- Diversifizierung statt Konzentration (nicht alles auf eine Architektur setzen)
- Geopolitische Dimension ernst nehmen (digitale Souveränität)
Die zentrale Lehre
Das größte Risiko ist nicht, auf die falsche Technologie zu setzen – das ist unvermeidlich in Zeiten technologischer Unsicherheit. Das größte Risiko ist strukturelle Rigidität: Sich durch Pfadabhängigkeiten so festzulegen, dass man nicht mehr reagieren kann, wenn sich die Evidenz ändert.
LeCun mag Recht haben, dass LLMs in eine Sackgasse führen. Oder Krishnan mag Recht haben, dass Skalierung weiter funktioniert. Oder Kambhampati mag Recht haben, dass beides nebeneinander existiert. Wir wissen es nicht – und das zu akzeptieren ist die ehrlichste Position.
Die entscheidende Frage
Nicht: „Hat LeCun Recht oder nicht?“ – das ist zu binär.
Sondern: „Wie organisieren wir KI-Entwicklung in einer Situation fundamentaler Unsicherheit, wo massive Pfadabhängigkeiten existieren, verschiedene Akteure auf unterschiedliche Paradigmen setzen und die Evidenz in beide Richtungen weist?“
Die deutsche und europäische Antwort sollte sein:
- Epistemische Demut: Wir wissen nicht, welches Paradigma gewinnt
- Strategische Diversifikation: Nicht alles auf eine Karte setzen
- Strukturelle Flexibilität: Pivot-fähig bleiben, wenn sich Evidenz ändert
- Offenheit: Open Source und Forschungstransparenz maximieren
- Kritische Evaluation: PR-Schere erkennen und benennen, ohne in Technikpessimismus zu verfallen
LeCuns Warnung verdient es, ernst genommen zu werden – nicht als unumstößliche Wahrheit, sondern als wichtiges Gegengewicht zu unkritischem Skalierungsoptimismus. Die Wahrheit liegt vermutlich nicht in den Extrempositionen, sondern irgendwo in der komplexen Mitte zwischen „LLMs sind eine Sackgasse“ und „Skalierung löst alles“.
Wer heute strategisch über KI nachdenkt, sollte nicht fragen: „Wie bekommen wir bessere LLMs?“ oder „Wie bauen wir Weltmodelle?“, sondern: „Wie bleiben wir handlungsfähig in einer Situation radikaler technologischer Unsicherheit?“ Das ist die eigentliche Herausforderung – und sie ist systemischer, nicht technischer Natur.
Quellen:
1. Yann LeCun: „A Path Towards Autonomous Machine Intelligence“ (2022)
Typ: Technical Report, Meta AI Research
Relevanz: LeCuns zentrale Vision für KI jenseits von LLMs. Beschreibt Joint-Embedding Predictive Architectures (JEPA) und Weltmodell-Ansätze als Alternative zu autoregressive Language Models.
Kernargument: Echte Intelligenz erfordert die Fähigkeit, Handlungsfolgen vorherzusagen und Weltmodelle aufzubauen – nicht nur statistische Textgenerierung.
Link: https://openreview.net/forum?id=BZ5a1r-kVsf
2. Niklas Luhmann: „Die Wirtschaft der Gesellschaft“ (1988)
Typ: Monographie, Systemtheorie
Relevanz: Theoretische Grundlage für die Analyse selbstreferentieller Systeme und operativer Geschlossenheit. Erklärt, wie wirtschaftliche Systeme ihre Umwelt nach eigenem Code (zahlen/nicht zahlen) beobachten und dabei blinde Flecken entwickeln.
Anwendung im Essay: Erklärt, warum die KI-Industrie in Pfadabhängigkeiten gefangen ist – das System beobachtet nur noch, was investierbar ist, nicht was technisch optimal wäre.
Verfügbarkeit: Suhrkamp Verlag
3. Paul A. David: „Clio and the Economics of QWERTY“ (1985)
Typ: Journal Article, American Economic Review
Relevanz: Klassische Arbeit zu Pfadabhängigkeiten in Technologiesystemen. Zeigt am Beispiel der QWERTY-Tastatur, wie frühe Standardisierungen spätere Optionen einschränken – auch wenn bessere Alternativen existieren.
Anwendung im Essay: Erklärt technische, personelle und regulatorische Lock-Ins bei LLM-Infrastruktur.
DOI: 10.2307/1805621
4. Stuart Russell & Peter Norvig: „Artificial Intelligence: A Modern Approach“ (4th ed., 2020)
Typ: Lehrbuch, klassische KI
Relevanz: Definiert fundamentale Eigenschaften von Agenten (Autonomie, Reaktivität, Proaktivität, soziale Fähigkeit). Beschreibt klassische Planungsverfahren (STRIPS, PDDL) und Multi-Agenten-Systeme.
Anwendung im Essay: Kontrastiert echte Agenten mit aktuellen LLM-Wrappern. Zeigt, was State Representation, Transition Models und Goal-Directed Search bedeuten.
Verfügbarkeit: Pearson, Standard-Lehrbuch
5. Jared Kaplan et al.: „Scaling Laws for Neural Language Models“ (2020)
Typ: Research Paper, OpenAI
Relevanz: Empirische Basis für die „Skalierung löst alles“-Hypothese. Zeigt, dass LLM-Performance vorhersagbar mit Compute, Daten und Parametern skaliert.
Gegenposition zu LeCun: Wenn Scaling Laws weiter gelten, könnten auch Reasoning-Fähigkeiten emergieren.
Link: https://arxiv.org/abs/2001.08361
6. Subbarao Kambhampati: „Can Large Language Models Reason and Plan?“ (2024)
Typ: Position Paper / Survey
Relevanz: Differenzierte Analyse der LLM-Limitationen. Stimmt LeCuns theoretischer Kritik zu, betont aber praktischen Nutzen und wirtschaftliche Relevanz. Unterscheidet zwischen „Reasoning über Pläne“ und „echtem Planen“.
Position: LLMs sind nützliche kognitive Werkzeuge, aber keine echten Agenten.
Link: https://arxiv.org/abs/2403.04121
7. DeepMind: „A general reinforcement learning algorithm that masters chess, shogi, and Go through self-play“ (Silver et al., 2018)
Typ: Research Paper, Nature
Relevanz: AlphaZero als Beispiel für Model-Based Planning. Zeigt, wie echte Vorausplanung durch Monte Carlo Tree Search funktioniert – fundamental anders als LLM-Textgenerierung.
Kontrast: Während AlphaZero Züge simuliert und bewertet, „halluzinieren“ LLMs Pläne.
DOI: 10.1126/science.aar6404
8. Wei et al.: „Emergent Abilities of Large Language Models“ (2022)
Typ: Research Paper, Google Research
Relevanz: Empirische Evidenz für Emergenz-Phänomene – Fähigkeiten, die bei kleineren Modellen nicht existieren, tauchen plötzlich bei größeren auf.
Gegenargument zu LeCun: Vielleicht emergieren auch Planungsfähigkeiten bei weiterer Skalierung, auch wenn nicht architekturell vorhersagbar.
Link: https://arxiv.org/abs/2206.07682
9. Geoffrey Hinton: „The Future of AI and Its Impact on Society“ – Interviews und Stellungnahmen (2023-2024)
Typ: Public Statements, Interviews
Relevanz: Hintons Warnung vor existenziellen Risiken durch KI – direkte Gegenposition zu LeCuns „Apokalypse-Szenarien sind übertrieben“.
Ironie: Beide Turing-Award-Gewinner, völlig entgegengesetzte Risikoeinschätzung. Zeigt, dass selbst Experten fundamental uneins sind.
Quelle: Diverse Interviews (MIT Technology Review, NYT, Guardian)
10. Michael Wooldridge: „An Introduction to MultiAgent Systems“ (2nd ed., 2009)
Typ: Lehrbuch, Multi-Agenten-Systeme
Relevanz: Definiert Anforderungen an echte Multi-Agenten-Systeme: Theory of Mind, Koordinationsprotokolle, Verhandlung, Koalitionsbildung, Game-Theoretic Optimization.
Anwendung im Essay: Zeigt, warum „mehrere LLMs, die miteinander chatten“ keine echten Multi-Agenten-Systeme sind. Beschreibt, was für agentic commerce wirklich nötig wäre.
Verfügbarkeit: Wiley, Standard-Referenz
Ergänzende Quellen
11. Brian Arthur: „Competing Technologies, Increasing Returns, and Lock-In by Historical Events“ (1989)
Ökonomische Theorie zu Pfadabhängigkeiten und technologischen Lock-Ins.
12. LeCun, Bengio, Hinton: „Deep Learning“ (Nature, 2015)
Die drei Turing-Award-Gewinner im Konsens – vor der LLM-Kontroverse.
13. Peter Drucker: „The Practice of Management“ (1954)
Management-Theorie zu organisationaler Trägheit und Widerstand gegen Paradigmenwechsel.
14. OpenAI: „GPT-4 Technical Report“ (2023)
Empirische Daten zu LLM-Capabilities und Limitationen aus erster Hand.
15. Anthropic: „Constitutional AI: Harmlessness from AI Feedback“ (2022)
RLHF und Alignment-Ansätze – relevant für die Frage, ob LLMs „steuerbar“ genug für Agenten sind.
References
