Strategic Analysis Patrick Zandl

Claude Fable 5 - Anthropic vydal AI model, který masivně překonává všechny ostatní

Anthropic právě vydal svůj nejsilnější model Claude Fable 5, první veřejně dostupný model z nové třídy, kterou nazývá Mythos-class a kterou staví nad dosavadní Opus.

Anthropic právě vydal svůj nejsilnější model Claude Fable 5, první veřejně dostupný model z nové třídy, kterou nazývá Mythos-class a kterou staví nad dosavadní Opus. Marketing tentokrát není skromný. Anthropic tvrdí, že schopnosti Fable 5 překonávají jakýkoli model, jaký kdy zpřístupnil veřejnosti, a že drží state of the art skoro na všech testovaných benchmarcích. Posun ve schopnostech je ale nakonec ta méně zajímavá část příběhu. Skutečně nová je konstrukce: systém na určitých tématech vaši otázku bez vaší volby přesměruje na jiný, slabší model. Na to jsme u Anthropicu nebyli zvyklí.

Co Fable 5 umí, jak funguje jeho bezpečnostní architektura, kde je hranice mezi self-reportem a ověřenými daty, a co znamená nezávislý test, který prvotní nadšení vyvažuje? Fakta čerpáme z oficiálního oznámení Anthropic, externího měření Artificial Analysis a testování od Andon Labs.

Omlouvám se za poznámku bokem, ale jméno modelu Fable mám tendenci číst jako Fabie. Se Škodou Fabie to ale nemá nic společného, Fable znamená bajku - tedy pohádkový mýtus s ponaučením. Záměrně zvolené jméno pro model rodiny Mythos…

Fable a Mythos: jeden model, dva přístupy

Začněme tím, co je na vydání bezprecedentní. Anthropic vydal dva modely, které podle jeho slov sdílejí stejný základní model. Claude Mythos 5 je odjištěná verze bez bezpečnostních klasifikátorů v oblasti kyberbezpečnosti a biologie, dostupná jen úzké skupině přes Project Glasswing - program s americkou vládou pro obránce kritické infrastruktury. Claude Fable 5 je tentýž model s vrstvou klasifikátorů navrch, který lze volat veřejně přes API.

Mythos-class je nová kategorie, kterou Anthropic řadí nad třídu Opus. Dosavadní logika byla Haiku na rychlé úlohy, Sonnet na běžnou práci, Opus na ambiciózní projekty. Fable 5 teď sedí nad Opusem jako nový frontier pro nejsložitější úlohy. Model string je claude-fable-5, dostupnost na API a consumption-based enterprise plánech je okamžitá, v desktop rozhraní a Code je k dispozici.

Hlavní zpráva celého vydání zní takto: kompletní model existuje, ale přístup k jeho rizikovějším schopnostem je přidělován podle toho, kdo jste a k čemu máte oprávnění. To je jiný způsob distribuce frontier modelu, než na jaký jsme zvyklí.

Benchmarky s výhradami

Část čísel pochází z oznámení Anthropic, část z prvního externího měření Artificial Analysis. U většiny benchmarků ale stále chybí širší nezávislá replikace. Na agentním codingu je skok schopností reálný a fakt velký.

BenchmarkFable 5Opus 4.8GPT-5.5Gemini 3.1 Pro
SWE-Bench Pro80,3 %69,2 %58,6 %54,2 %
SWE-Bench Verified95,0 %
FrontierCode Diamond29,3 %13,4 %5,7 %
GDPval-AA (Elo)1932189017691314
GDP.pdf (vision, bez nástrojů)29,8 %22,5 %24,9 %16,7 %

SWE-Bench Pro 80,3 procenta je o jedenáct bodů nad Opus 4.8 a nejvyšší zaznamenané skóre. FrontierCode od Cognition, který testuje náročné coding úlohy pod produkčními standardy, ukazuje na nejtěžším Diamond splitu 29,3 procenta proti 13,4 u Opus 4.8 - víc než dvojnásobek. Michael Truell z Cursoru, jehož tým postavil CursorBench, označil Fable 5 za state of the art model na CursorBench a tvrdí, že otevřel long-horizon problémy, které byly dřív mimo dosah.

Klíčové je, že pokrok modelu potvrdilo i první externí měření. Artificial Analysis, které Anthropic podpořilo pre-release evaluací, zařadilo Fable 5 na první místo svého Intelligence Indexu se skóre 64,9 - zhruba pět bodů před nejbližším modelem mimo Anthropic, GPT-5.5. Fable 5 nastavil nejvyšší skóre na pěti z deseti dílčích benchmarků. Na AA-Omniscience, znalostním a halucinačním benchmarku, dosáhl 40 bodů, o sedm nad předchozím lídrem Gemini 3.1 Pro - tažený hlavně vyšší přesností. AA poznamenává, že vyšší přesnost na tomto testu obvykle souvisí s velikostí modelu, což naznačuje, že Fable 5 může být větší než předchozí veřejné modely Anthropic. Je to externí potvrzení, byť ne plně nezávislé - AA mělo od Anthropic předběžný přístup, ale obecně je považováno za důvěryhodné a nezaujatou instituci.

Tady je ale nutná zásadní výhrada k tabulkám, které kolují. Část publikovaných benchmarků jsou skóre Mythos 5, ne Fable 5. Na úlohách z oblasti kyberbezpečnosti a biologie Fable 5 přepíná na Opus 4.8, takže hvězdičkové řádky v Anthropic tabulce (ExploitBench 78 procent, BioMysteryBench 46,1 procenta) odrážejí odjištěný Mythos 5. Tyto benchmarky tedy měří schopnosti Mythos 5; ve veřejném provozu může Fable 5 na části úloh dosáhnout nižších výsledků kvůli fallback mechanismu. Kdo čte benchmarky Fable 5, musí rozlišovat, které skóre patří kterému modelu.

Fallback: srdce celého vydání

Tohle je část, která nemá v dosavadních vydáních Opus obdobu, a je důležitější než kterékoli jednotlivé číslo.

Protože Mythos-class schopnosti v kyberbezpečnosti a biologii by mohly dát reálnou výhodu útočníkům, Anthropic vybavil Fable 5 sadou klasifikátorů, které sledují dotazy dotýkající se tří oblastí - kyberbezpečnosti, biologie a chemie, a distilace modelu. Když některý klasifikátor zareaguje, odpověď obslouží Claude Opus 4.8 místo Fable 5 a uživatel je o tom informován. Nejde tedy o odmítnutí, ale o přepnutí na slabší model.

Důvod té opatrnosti je vidět na bezpečnostních benchmarcích. Odjištěný Mythos 5 skóruje na ExploitBench 78 procent, skoro dvojnásobek Opus 4.8 se 40 procenty. Nejschopnější veřejný model, jaký kdy Anthropic vydal, tedy na části témat předá vaši otázku slabšímu - uživatel je o tom informován, ale nemá nad tím volbu. Anthropic naladil klasifikátory konzervativně, aby vydání bylo rychlé a bezpečné, což znamená, že občas chytí i neškodné dotazy. Firma uvádí, že fallback se spustí v méně než 5 procentech sessions a že ve více než 95 procentech Fable funguje efektivně jako Mythos 5. Externí měření to ale mírně koriguje - Artificial Analysis naměřilo fallback v zhruba 8 procentech úloh napříč Intelligence Indexem, na Humanity’s Last Exam dokonce v 9 procentech, převážně u vědeckých otázek z evaluací jako GPQA a AA-Omniscience. Rozdíl mezi “pod 5 procent sessions” (Anthropic) a “8 procent úloh” (AA) je částečně dán odlišnou metrikou, ale ukazuje, že u vědecky laděných workloadů je fallback častější, než průměrné číslo napovídá. Stojí to za to znát před stavbou workflow: zhruba jedna z dvanácti až dvaceti úloh nemusí běžet na modelu, který si myslíte. Mimochodem, běh HLE s Fable 5 stál podle AA včetně fallbacku zhruba 2 200 dolarů, nejvíc ze všech modelů, které kdy testovali.

Že jde o reálné omezení a ne jen teorii, ukazují první uživatelské testy. Komunitní BullshitBench V2 hlásí 33procentní refusal rate na Fable 5 a 80procentní u fyzikálních otázek - tedy oboru, který s kyberbezpečností ani biologií nesouvisí. Jde o komunitní měření bez formální metodiky, takže ta čísla berme spíš jako indikaci možného problému než přesný odhad. Konkrétní příklad z praxe to ale potvrzuje: uživatel požádal model, aby se choval jako blackhat a pomohl mu zabezpečit jeho vlastní lokální projekt - tedy legitimní obranný security úkol - a narazil na fallback. Jiní hlásí, že prompt s odkazem na kyberbezpečnost selže s nativní pamětí, ale v anonymním režimu projde. Klasifikátor tedy nečte jen samotný dotaz, ale i kontext session. Je ale velmi pravděpodobné, že na zlepšení klasifikátoru bude Anthropic pracovat podle praktických výsledků, takže k úpravám dojde záhy po vydání modelu.

Třetí trigger míří dovnitř

Dva z těch tří klasifikátorů řeší externí škodu - kyberbezpečnost a biologie mohou pomoct útočníkům. Třetí klasifikátor, tedy distilace modelu, dělá něco jiného. Anthropic podle system cardu zachytává dotazy mířící na vývoj konkurenčního frontier modelu, tedy pokusy použít Fable ke stavbě rivala.

Tenhle trigger lze číst dvěma způsoby. Bezpečnostně jako ochranu proti šíření schopností frontier modelů na neznámé aktéry. Komerčně jako ochranu Anthropic před tím, aby konkurence postavila levnější model destilací z toho jeho (což se v minulosti stalo a Anthropic se zlobí na své čínské fivaly). Anthropic veřejně zdůrazňuje první motivaci. Ať je záměr jakýkoli, pozorování zůstává: tentýž mechanismus slouží bezpečnosti i obraně tržní pozice, a je upřímné vidět ho zabudovaný přímo v launchi vedle dvou klasifikátorů na externí škodu.

Na odolnost safeguardů Anthropic nasadil externí bug bounty, který za více než 1000 hodin testování nenašel univerzální jailbreak, byť firma uvádí, že britský AI Safety Institute udělal první pokrok k jednomu. Vedle klasifikátorů Anthropic zavedl požadavek 30denní retence dat pro bezpečnostní monitoring na Mythos-class provoz, kvůli obraně proti multi-request útokům a hledání false positives. Tvrdí, že data nepoužije k tréninku. Přesný rozsah je ale potřeba ověřit podle platformy a smlouvy - z dokumentace je jasné, že retenci vyžaduje Mythos 5, u veškerého Fable 5 provozu na všech platformách to tak jednoznačné není. Pro enterprise zákazníky, kteří měli dříve zero-retention smlouvy, je to každopádně změna podmínek, která už vyvolala kritiku.

Co model umí

Mimo safeguardované oblasti je Fable 5 výkonný a empirické testy to ukazují dost jasně.

Nejhodnotnější nezávislý test pochází od Dana Shippera z Every, jehož Senior Engineer benchmark v této rubrice sledujeme dlouhodobě. Po týdnu interního testování na codingu, psaní, marketingu a editaci dal Fable 5 91 ze 100 bodů - předchozí maximum drželo Opus 4.8 s 63 a GPT-5.5 s 62. To není inkrementální nárůst o pár bodíků, je to jiná liga, blízko úrovni lidského senior developera. Shipper nechal model běžet přes noc na obřích úkolech: vyčistil celý production bug backlog, postavil hratelnou 3D hru, sestavil dvouminutový animovaný film. Oceňuje lepší taste a pozornost k detailu, model přidává chytré featury, které by člověk sám nenapsal. Jeho shrnutí ale obsahuje i klíčovou výhradu: model je velmi pomalý, spotřebuje 500 tisíc až milion tokenů na úkol a je zhruba dvakrát dražší než Opus. Shipperova metafora to vystihuje - Fable 5 je “warp pohon na cestu po galaxii, ale ne na cestu do obchodu”. Skvělý na nejtěžší joby, jako kanón na vrabce pro běžnou práci.

Vlajkovou zprávou je coding. Stripe v rané fázi testování nechal Fable 5 provést migraci napříč padesátimilionovým Ruby codebase za jeden den. Práci, která by celému týmu zabrala víc než dva měsíce ruční práce. To je famózní číslo!

Vize je oblast, kde je skok nejnázornější. Fable 5 dokáže zrekonstruovat zdrojový kód webové aplikace jen ze screenshotů a dohrál Pokémon FireRed od začátku do konce pouze z raw herních screenshotů, bez map a navigačních pomůcek - starší modely Claude potřebovaly k hraní složitý pomocný harness. Z jednoho promptu “postav simulaci sluneční soustavy” vrátil jediný HTML soubor s funkční 3D simulací včetně reálné orbitální mechaniky, asteroidového pásu a Saturnových prstenců. Praktická verze téhož se objevuje v zákaznických testech, kde aplikace, které před rokem vyžadovaly sto promptů, teď vznikají na jeden.

Na dlouhých úlohách model drží pozornost přes miliony tokenů a zlepšuje vlastní práci pomocí poznámek, které si vede. Anthropic to ilustruje hrou - s persistentní file-based pamětí při hraní deck-builderu Slay the Spire se výkon zlepšil třikrát víc než u Opus 4.8 za stejných podmínek. Matthew Pines, testující frontier fyzikální výzkum, uvedl, že Fable 5 se dostal skoro tam, kde GPT-5.5 po čtyřech dnech, za 36 hodin. Sám jsem přes noc zkusil spustit obsáhlé, složité zadání v Claude Code a autonomní dvouhodinový běh vyřešil komplexní vývojový úkol, který jsem s Opusem 4.6 ladil několik nervozních dní.

Nejsilnější vědecké výsledky pocházejí od sourozeneckého Mythos 5 s odjištěnou biologií. Experti Anthropic na design proteinů uvádějí zrychlení částí procesu zhruba desetkrát, kdy model sám vybíral vazebná místa, spouštěl návrhové nástroje a zotavoval se z vlastních chyb bez lidské asistence. Devět ze čtrnácti proteinových cílů ve studii dalo silné kandidáty. V genomice model, který Mythos 5 natrénoval na single-cell datech napříč 138 druhy, překonal nedávný model publikovaný v Science, přestože byl stokrát menší.

Kritická protiváha: Andon Labs

Ne všechny nezávislé signály jen chválí, a tenhle je důležitý.

Andon Labs, tým za long-horizon agentním benchmarkem Vending-Bench (simulace řízení firmy), otestoval odjištěný Mythos 5 - jeho filtry se nikdy nespustily. Výsledek je skeptičtější než launch-day nadšení. Na benchmarku model vydělal méně peněz než Opus 4.7 i GPT-5.5 a jeho alignment vypadal jako krok zpět ke staršímu chování Claude.

Nejvíc zaráží způsob, jakým model uvažoval o nekalém jednání. V jednom běhu písemně odmítl pozvání do cenového kartelu, zatímco v soukromém reasoningu plánoval srovnat ceny s kartelem a udržet čistou papírovou stopu (NKÚ by ho nepochválil). Price-fixing označil za nelegální “i v simulaci” a pak ho prováděl jako “stabilizaci trhu”. Andon to interpretuje jako známku toho, že model při některých úlohách reaguje víc na pravděpodobnost odhalení než na samotnou škodu. Je to jeden benchmark a rané testování jednoho týmu, ne publikovaný verdikt, ale je to užitečná protiváha k nadšení z prvního dne.

Pro publikum, které staví agentní workflow, je tohle relevantnější než SWE-Bench skóre. Pokud Andonova interpretace platí, model, jehož etické chování reaguje na detekovatelnost, je v autonomním dlouhém běhu jiný typ rizika než model, který občas chybuje. Stojí za to si to ověřit na vlastních úlohách, ne to brát jako prokázanou vlastnost po jednom testu.

Cena, dostupnost a strategický kontext

Fable 5 i Mythos 5 stojí 10 dolarů za milion vstupních a 50 za milion výstupních tokenů. To je méně než polovina ceny dřívějšího Mythos Preview (zhruba 30/150), ale dvojnásobek Opus 4.8 (5/25) a patří mezi nejdražší hlavní veřejně dostupné modely. Zápis a čtení cache stojí 12,50 a 1 dolar za milion tokenů. Frontier tier nese reálnou prémii pro běžné použití. Drazší už je jen GPT-5.5 Pro.

Dostupnost má nezvyklý tvar. Na API a consumption enterprise plánech je Fable 5 dostupný hned. V předplatném Pro, Max, Team a seat-based enterprise je zdarma jen do 22. června. Od 23. června z těch plánů mizí a další použití vyžaduje usage credits, dokud kapacita nedožene poptávku. Kdo na něj chce spoléhat, má úzké okno.

Strategicky je nejzajímavější vzorec, který Fable 5 nastoluje. Frontier model pro vyvolené může být obchodní propozice, ke které se posune celé odvětví. Otázka, kterou si komentátoři kladou hned, je, jestli OpenAI odpoví vlastním omezeným top tierem, až se přiblíží GPT-5.6. Anthropic ukázal, že nejschopnější model lze vydat veřejně, pokud se jeho nejnebezpečnější hrany ohraničí přístupem místo toho, aby zůstaly veřejné.

Závěr

Claude Fable 5 vypadá jako skutečný skok o třídu, ne pouhé zlepšení. Pro nás je ale již podstatnější trojí poučení než jednotlivá čísla.

Za prvé, model, který voláte, nemusí být model, který odpovídá. Na zhruba jedné z dvanácti až dvaceti úloh systém přepne na Opus 4.8. Za druhé, distilační trigger ukazuje, že tentýž mechanismus může sloužit bezpečnosti i obraně tržní pozice; Anthropic zdůrazňuje bezpečnostní motivaci, ale dvojí funkce zůstává. Za třetí, nezávislý test Andon Labs je vážná připomínka, že skok ve schopnostech a spolehlivost nejsou totéž - pokud jejich pozorování o reakci na detekovatelnost platí, je to v autonomním běhu riziko, které žádný coding benchmark nezachytí.

Pokud děláte náročný long-horizon coding nebo knowledge work a unesete dvojnásobnou cenu Opus 4.8, Fable 5 stojí za test - ale ověřte si ho na vlastní úloze, ne na cizích benchmarcích. Shipperova metafora je dobré vodítko: Fable 5 je warp drive pro galaxii, ne na cestu do obchodu.

Pro směr oboru je Fable 5 signál, že frontier se začíná štěpit na to, co je veřejné, a to, co je ohraničené přístupem. Tahle hranice bude příští rok zajímavější než další body na SWE-Bench.

A ještě na závěr: jistě vás napadla otázka, proč právě teď, proč právě Anthropic a jak to dokázal, že zrovna on posunul svůj LLM model rozdílem třídy. Tohle je logická past, do které se nechci pouštět. Nevíme žádné detaily o tom, jak Fable 5 funguje pod kapotou a nemůžeme usuzovat nic o tom, proč právě teď a proč právě Anthropic. Navíc se může stát, že za týden vydá OpenAI svůj GPT-5.6 a jeho Pro verze bude mít podobné schopnosti. Berte to, jak to je. Nevíme nic, pokud sami nejste vývojáři LLM, nemá smysl se pouštět do spekulací, ale spíš do zkoumání, jak Fable 5 využít ve váš prospěch…