Fable 5 oder Opus 4.8? Wie wir die neue Mythos-Klasse für unsere Projekte bewerten

Eine technische Einordnung von Anthropics erstem öffentlichen Frontier-Sprung — und was er für reale Workloads bedeutet.

Wir standen vor einer Frage, die gerade jede Agentur und jedes Dev-Team beschäftigt: Lohnt sich der Wechsel? Ende Mai war Opus 4.8 noch das neue Flaggschiff — keine zwei Wochen später schiebt Anthropic mit Claude Fable 5 ein Modell nach, das angeblich auf einer ganz neuen Leistungsstufe spielt. Für uns hieß das: nicht dem Hype hinterherlaufen, sondern nüchtern durchrechnen, wo der teurere Sprung sich auszahlt und wo Opus 4.8 die klügere Wahl bleibt.

Was wir dafür gemacht haben: Anthropics Launch-Material zerlegt, die Benchmark-Deltas gegen die Kosten gestellt und ein einfaches Routing-Modell abgeleitet. In diesem Artikel zeigen wir die Einordnung — inklusive Kostenrechnung, Benchmark-Vergleichen und der Mechanik, die Fable 5 und Opus 4.8 enger verzahnt, als man denkt.

Was ist Fable 5 — und warum ist es kein Opus-Update?

Der wichtigste Punkt zuerst, weil er alles andere erklärt: Fable 5 ist eine neue Modellklasse, kein Punkt-Release. Anthropic positioniert die sogenannte Mythos-Klasse ausdrücklich über der Opus-Reihe.

Dahinter steckt eine clevere Konstruktion. Fable 5 ist die öffentlich freigegebene, abgesicherte Variante desselben Modells, das in ungebremster Form als Claude Mythos 5 nur einem kleinen Kreis geprüfter Partner zur Verfügung steht. Gleiches Modell, gleiche Rohleistung — der einzige Unterschied sind die Schutzmechanismen. Sogar der Name erzählt das: Fable (lat. fabula, „das, was erzählt wird”) ist mit dem griechischen mythos verwandt.

Für die Praxis heißt das: Wer Fable 5 bewertet, vergleicht nicht zwei Geschwister-Updates, sondern ein Arbeitspferd (Opus 4.8) mit einem bewusst eingehegten Frontier-Modell.

Die wirklich großen Änderungen gegenüber Opus 4.8

Wir haben uns auf das konzentriert, was im Alltag tatsächlich einen Unterschied macht — nicht auf jede dritte Nachkommastelle.

  1. Autonomie über lange Zeiträume. Der Kernfortschritt ist nicht ein einzelner Benchmark, sondern Durchhaltevermögen: Fable 5 arbeitet in einer Agenten-Umgebung wie Claude Code über Stunden bis Tage eigenständig, plant seinen Ansatz, prüft den Fortschritt gegen das Ziel und korrigiert sich unterwegs. Anthropics Faustregel: Je länger und komplexer die Aufgabe, desto größer der Vorsprung. Bei kurzen, klar umrissenen Tasks rücken die Modelle dagegen eng zusammen.

  2. Software-Entwicklung. Das Vorzeige-Beispiel liefert Stripe: In einer 50-Mio.-Zeilen-Ruby-Codebasis erledigte Fable 5 eine codebasisweite Migration an einem Tag, für die ein Team von Hand über zwei Monate gebraucht hätte. Dazu kommt höhere Token-Effizienz — auf Cognitions FrontierCode-Eval erreicht Fable den Spitzenwert schon bei mittlerer Effort-Stufe.

  3. Wissensarbeit & Analyse. Auf einem Finanz-Benchmark für Senior-Level-Reasoning meldet ein Anbieter den höchsten je gemessenen Wert; ein Analytics-Anbieter sah als erstes Modell überhaupt die 90-%-Marke fallen — rund 10 Punkte über Opus. Ein Spreadsheet-Anbieter berichtet 25–30 % schnellere Durchläufe bei besserer Qualität.

  4. Vision. Neuer Stand der Technik: Fable 5 liest präzise Zahlen aus wissenschaftlichen Grafiken und rekonstruiert App-Quellcode allein aus Screenshots. Wo frühere Modelle selbst mit Hilfsgerüst an Pokémon FireRed scheiterten, schlug Fable das Spiel mit einer rein visuellen Umgebung.

  5. Gedächtnis & lange Kontexte. Fable bleibt über Millionen Tokens fokussiert. Im Spiel Slay the Spire verdreifachte dateibasiertes Langzeitgedächtnis den Leistungsgewinn gegenüber Opus 4.8.

Die Benchmark-Deltas — und der ehrliche Vorbehalt

Statt einer Wand aus Prozentzahlen haben wir uns die Deltas angesehen, die das eigentliche Muster zeigen:

Benchmark

Opus 4.8

Fable 5

Delta

SWE-bench Verified

~88,6 %

~95,0 %

+6,4 — nahe Sättigung

SWE-bench Pro

~69 %

~80 %

+11 — das Aushängeschild

FrontierCode (Diamond)

~13 %

~29 %

~2× — lange Horizonte

GDPval-AA (Elo)

~1890

~1932

+42 — moderat

Das Muster ist eindeutig: kurze Tasks → kleiner Abstand, lange Tasks → großer Abstand. Genau das deckt sich mit Anthropics eigener Faustregel.

Ehrlicher Vorbehalt: Anthropic zeigt die Vergleichstabelle nur als Grafik. Die konkreten Prozentwerte oben stammen aus Drittanalysen, die sich auf Anthropics Launch-Tabelle berufen — also durchweg Anbieterangaben. Vor Veröffentlichung gegen das offizielle System Card prüfen.

Was es kostet — die nüchterne Rechnung

Hier wird der Spaß teuer — und das ist unser eigentlicher Entscheidungs-Block.

Der Listenpreis. Opus 4.8 kostet 5 USD pro Mio. Input- und 25 USD pro Mio. Output-Tokens. Fable 5 liegt bei 10 USD bzw. 50 USD — also exakt das Doppelte. Ein konkretes Beispiel mit 1 Mio. Input und 500K Output: Opus landet bei 17,50 USD, Fable bei 35,00 USD. Glatte +100 %.

Der Haken am Sticker-Preis. Die höhere Token-Effizienz kann den Aufschlag teilweise wieder auffressen. Ein Frühkunde meldete eine Physik-Recherche, die Fable in 36 Stunden mit rund einem Drittel der Reasoning-Tokens erledigte — für dasselbe Ergebnis brauchte ein Wettbewerber vier Tage. Auf solchen Aufgaben relativiert sich der doppelte Token-Preis spürbar. Pro-Tipp: pro Aufgabentyp rechnen, nicht pro Token.

Dazu kommen zwei Bedingungen, die man nicht überlesen darf:

•    30-Tage-Datenspeicherung ist für die Mythos-Klasse verpflichtend — kein Zero-Data-Retention mehr. Anthropic nutzt die Daten laut eigenen Angaben nicht zum Training, sondern zur Angriffsabwehr und Fehlalarm-Reduktion; Zugriffe werden protokolliert.

•    Abo-Rollout in Stufen: Bis 22. Juni in Pro, Max, Team und Seat-Enterprise ohne Aufpreis. Ab 23. Juni läuft die Nutzung über Usage-Credits, bis Anthropic genug Kapazität hat, Fable wieder als Standard aufzunehmen.

Der versteckte Clou: Fable fällt auf Opus zurück

Das ist die Mechanik, die die beiden Modelle zu einem Paar macht. Fable 5 bringt eine Schicht Klassifikatoren mit, die Hochrisiko-Anfragen erkennen — und in diesen Fällen antwortet nicht Fable, sondern Opus 4.8. Konkret: Sobald eine Anfrage in die Bereiche Cybersicherheit, Biologie, Chemie oder Distillation fällt, übernimmt automatisch Opus 4.8, und der Nutzer wird darüber informiert. Laut Anthropic passiert das in unter 5 % der Sessions — in den übrigen 95 %+ bekommt man die volle Mythos-Leistung.

Heißt für die Praxis: Fällt eine Anfrage in einen abgesicherten Bereich, zahlt man den doppelten Preis für eine Opus-4.8-Antwort — in genau diesen Domänen sind die beiden Modelle am Ende identisch. Anthropic hat die Schwellen bewusst konservativ gesetzt; Fehlalarme bei harmlosen Anfragen sind also eingepreist und sollen mit künftigen Updates sinken.

Pro-Tipp: Wenn euer Workload Security-Research, Bio/Chemie oder irgendetwas berührt, das nach „Distillation” aussieht, plant den Fallback fest ein — auf der API steuert ihr das über Anthropics Fallback-Konfiguration, in den Apps läuft es automatisch.

Sehen statt lesen (hier kommt euer Video)

VIDEO

Abstrakte Begriffe wie „Mythos-Klasse” werden erst greifbar, wenn man sie laufen sieht. Anthropics stärkste Launch-Demos eignen sich perfekt fürs begleitende Video:

  • Sonnensystem-Simulation — Fable leitet die Planetenbahnen aus physikalischen Grundprinzipien her und sagt damit Sonnenfinsternisse vorher.

  • Factorio — das Modell baut autonom eine automatisierte Fabrik im Ingenieurs-Lieblingsspiel.

  • VibeCAD — ein 3D-druckbares Modell in einem CAD-Editor, den Fable zuvor selbst gebaut hat, inklusive KI-Copilot.

  • Fluid-Sim zu Musik — Strömung synchron zum Beat eines Klassik-EDM-Remixes, den Fable per Code erzeugt hat, ohne je Musik „gehört” zu haben.

  • Pokémon FireRed — durchgespielt allein aus rohen Screenshots.

Pro-Tipp fürs Video: Demo zeigen und parallel den passenden Benchmark einblenden — so wird aus „beeindruckend” ein nachvollziehbares Argument.

Die weitere Pipeline: wohin es als Nächstes geht

Fable 5 ist nur ein Teil des Bilds. Wer den Beitrag zukunftsorientiert schließen will, nennt diese Stränge:

  • Mythos 5 — dasselbe Modell, Cyber-Schutz gelockert, nur für geprüfte Verteidiger und Infrastruktur-Anbieter. Ersetzt das bisherige Mythos Preview und hat laut Anthropic die stärksten Cyber-Fähigkeiten aller Modelle weltweit.

  • Project Glasswing — der Auslieferungskanal für Mythos 5, zuletzt auf rund 150 Organisationen in über 15 Ländern erweitert; ein systematischeres Trusted-Access-Verfahren ist geplant. (anthropic.com/glasswing)

  • Trusted Access für Biologie — ausgewählte Biomed-Forschende sollen demnächst Fable ohne Bio-/Chemie-Schranken nutzen können. Hintergrund: Mythos 5 beschleunigte internes Proteindesign um rund das Zehnfache.

  • Roadmap — Anthropic kündigt „leistungsfähigere Modelle in den kommenden Monaten” an, arbeitet parallel an besseren Schutzmechanismen — und mahnt zugleich ein langsameres Frontier-Tempo an (Stichwort rekursive Selbstverbesserung). Der Launch fällt zudem in die Vorbereitung eines Börsengangs.

Was wir mitgenommen haben
  1. Es ist kein Entweder-oder, sondern Routing. Fable 5 für die harten, langen, autonomen Fälle — Opus 4.8 für gut umrissene Routine. Die eingebaute Fallback-Mechanik bestätigt genau diese Logik: Die beiden sind als Paar gedacht.

  2. Der Sticker-Preis lügt. 2× pro Token klingt brutal, aber Token-Effizienz auf schweren Reasoning-Aufgaben kann den Aufschlag teilweise oder ganz auffressen. Rechnet pro Aufgabentyp, nicht pro Token.

  3. Abgesicherte Domänen = doppelt zahlen für dieselbe Antwort. Wer viel mit Cyber/Bio/Chemie arbeitet, sollte wissen, dass Fable dort ohnehin auf Opus zurückfällt.

  4. Zahlen sind Anbieterangaben. Solange nur die Launch-Tabelle vorliegt, gehören alle Prozentwerte in die Kategorie „selbst gemeldet”. Für belastbare Aussagen ins System Card schauen.

Fazit

Fable 5 ist der erste öffentlich verfügbare Schritt in eine Leistungsstufe oberhalb von Opus — und das ist mehr als Marketing: Bei langen, komplexen, autonomen Aufgaben zieht das Modell sichtbar davon. Für den Großteil der täglichen Produktion bleibt Opus 4.8 aber das wirtschaftlichere Arbeitspferd. Die richtige Frage lautet darum nicht „umsteigen oder nicht?”, sondern „welche Aufgabe verdient welches Modell?”.

Und die vielleicht wichtigste Erkenntnis: Mit „leistungsfähigeren Modellen in den kommenden Monaten” ist die nächste Stufe ohnehin nur eine Ankündigung entfernt.


Du willst wissen, welche eurer Workflows sich für die Mythos-Klasse lohnen — und welche auf Opus besser aufgehoben sind?


Quellen

https://www.anthropic.com/news/claude-fable-5-mythos-5

https://www.anthropic.com/glasswing

https://www.anthropic.com/claude/fable

https://www.anthropic.com/claude/mythos

https://www.digitalapplied.com/blog/claude-fable-5-mythos-5-agentic-coding-deep-dive-2026

https://www.latent.space/p/ainews-anthropic-claude-fable-5-mythos

https://fortune.com/2026/06/10/anthropic-accu-claude-fable-5-limits-capabilities-ai-researchers-developers/

https://techcrunch.com/2026/06/09/anthropic-released-claude-fable-5-its-most-powerful-model-publicly-days-after-warning-ai-is-getting-too-dangerous/

https://www.heise.de/en/news/Anthropic-releases-Claude-Mythos-5-as-Fable-5-with-restrictions-11326644.html