Claude Opus 4.8 - Anthropic sází na chování modelu, ne na benchmarky

Anthropic vydal 28. května 2026 Claude Opus 4.8, pouhých šest týdnů po Opus 4.7. Kadence vydávání se zrychlila a model sám je jiného druhu než předchozí velké skoky. Na čistých benchmarcích jde o inkrementální zlepšení, typicky o tři až pět procentních bodů. Skutečný posun leží jinde - v chování modelu během dlouhých autonomních běhů. Anthropic staví celé vydání na tom, že Opus 4.8 přestává předčasně hlásit “hotovo”, upřímněji přiznává nejistotu a méně často propustí chybu v kódu. Pro vývojáře, kteří modely používají na reálnou agentní práci, je tohle relevantnější než další bod na grafu.

Cena zůstává stejná jako u 4.7 - 5 dolarů za milion vstupních tokenů a 25 dolarů za milion výstupních. K tomu Anthropic přidal Fast Mode, Dynamic Workflows a uživatelské řízení effort úrovní. Pro vibecoding.cz publikum přinášíme fakta z oficiálního oznámení, dostupných benchmarků a prvních nezávislých reakcí.

Co Opus 4.8 je

Model je dostupný okamžitě na claude.ai, přes API pod identifikátorem claude-opus-4-8 a na hlavních cloudových platformách. Drží 1M tokenů kontextu. Výchozí effort úroveň je high, uživatel může zvolit “extra” (xhigh v Claude Code) nebo “max” pro náročnější úlohy a dlouhé asynchronní běhy. Anthropic zvýšil rate limity v Claude Code, aby pokryly vyšší spotřebu tokenů u vyšších effort úrovní.

Doplňují to tři vylepšení tokenové ekonomiky - prompt caching s úsporou až 90 procent, batch processing s úsporou 50 procent a obecně lepší tokenová efektivita než u 4.7. Messages API nově přijímá systémové vstupy uvnitř pole zpráv, takže lze aktualizovat instrukce uprostřed úlohy bez porušení prompt cache.

Benchmarky

Anthropic zveřejnil srovnání proti Opus 4.7, GPT-5.5 a Gemini 3.1 Pro. Všechna čísla jsou self-reporty Anthropic.

Benchmark	Opus 4.8	Opus 4.7	GPT-5.5	Gemini 3.1 Pro
SWE-Bench Pro (agentní coding)	69,2 %	64,3 %	58,6 %	54,2 %
Terminal-Bench 2.1	74,6 %	66,1 %	78,2 %	70,3 %
Humanity’s Last Exam (bez nástrojů)	49,8 %	46,9 %	41,4 %	44,4 %
Humanity’s Last Exam (s nástroji)	57,9 %	54,7 %	52,2 %	51,4 %
OSWorld-Verified (počítačové úlohy)	83,4 %	82,8 %	78,7 %	76,2 %
GDPval-AA (znalostní práce, Elo)	1890	1753	1769	1314
Finance Agent v2	53,9 %	51,5 %	51,8 %	43,0 %

SWE-Bench Pro 69,2 procenta je podle Anthropic nejvyšší zaznamenané skóre na tomto benchmarku. Nárůst o 4,9 bodu proti 4.7 je v kategorii agentního codingu znatelný. Online-Mind2Web dosáhl 84 procent. Nezávislé Artificial Analysis zařadilo Opus 4.8 na vrchol svého Intelligence Indexu se skóre 61,4.

Jeden detail v tabulce stojí za pozornost. Na Terminal-Bench 2.1 stále vede GPT-5.5 se 78,2 procenta proti 74,6 procenta u Opus 4.8. Anthropic to v materiálech ukázal poctivě, ale obecný headline “poráží GPT-5.5” je selektivní - na agentním terminal codingu OpenAI drží náskok. Pro úlohy v terminálu zůstává GPT-5.5 silnou volbou.

Hlavní zpráva je chování, ne čísla

Anthropic popisuje Opus 4.8 jako model s ostřejším úsudkem, větší upřímností o vlastním postupu a schopností pracovat nezávisle déle. Tvrdí, že model čtyřnásobně méně často propustí chybu v generovaném kódu bez povšimnutí. Rané testy to z velké části potvrzují.

Niko Grupen, vedoucí aplikovaného výzkumu v právnické AI firmě Harvey, uvedl, že Opus 4.8 dosáhl nejvyššího skóre v jejich interním Legal Agent Benchmarku a přináší přesnost, která se přímo promítá do množství práce, kterou advokáti mohou s důvěrou předat modelu. Aabhas Sharma, technický ředitel firmy Hebbia (nástroje pro analýzu dokumentů), označil model za výrazně lepší ve tvorbě finančních dokumentů s patrně přesnějšími citacemi. Společnost Bridgewater zdůraznila, že největší rozdíl je v tendenci Opus 4.8 proaktivně upozorňovat na problémy ve vstupech a výstupech analýzy - něco, co ostatní modely běžně přehlížely a nechávaly na uživateli.

Tady je ale namístě zdrženlivost. Anthropic neposkytl žádné vysvětlení metodologie, jak model k vyšší upřímnosti došel. Inc.com to zachytil přesně - tvrzení “nejupřímnější model” zůstává marketingové, dokud nebude k dispozici nezávislý test kalibrace jistoty. Tendence flagovat nejistotu je v testimonialech od partnerů popsaná konzistentně, což je signál, ale partneři Anthropic nejsou nezávislí hodnotitelé.

Fast Mode a cenový tlak

Fast Mode je nejkonkrétnější novinka pro každodenní práci. Jde o stejný model běžící přibližně 2,5krát rychleji za třetinu předchozí ceny fast varianty. Aktivace přes příkaz /fast v Claude Code. Pro dlouhé coding sessions, kde latence rozhoduje o použitelnosti, je to praktický rozdíl.

Strategicky je Fast Mode tlak na cenovou válku. Rychlejší a levnější varianta frontier modelu je přímá odpověď na cenovou pozici GPT-5.5 a na nástup levných čínských modelů jako DeepSeek V4-Flash. Anthropic drží katalogovou cenu Opus 4.8 na úrovni 4.7, ale Fast Mode otevírá levnější vstupní bod bez nutnosti sáhnout po slabším modelu.

Dynamic Workflows

Dynamic Workflows je funkce v research preview, která umožňuje Claude spustit v jedné session stovky paralelních subagentů. To je přímá odpověď na Google Antigravity 2.0, který přesně tuhle multi-agent orchestraci ukázal devět dní předtím. Anthropic tím dohání platformní funkce, kde Google a OpenAI tlačí na orchestraci agentů.

Pro Claude Code to znamená, že lze předat větší úlohu, kterou model rozloží mezi paralelní subagenty místo sekvenčního zpracování. Pro long-horizon coding s mnoha nezávislými dílčími úkoly je to potenciálně zásadní zrychlení, ale jako research preview to ještě není produkčně ověřené.

Co Opus 4.8 znamená a co počkat

Opus 4.8 není další level v tom smyslu, jako byly některé předchozí skoky. Je to cílený upgrade pro lidi, kteří Claude používají na reálnou práci - dlouhé coding sessions, agenty, Cursor, vlastní workflows. Největší přidaná hodnota leží v kombinaci upřímnosti, perzistence a Fast Mode. Někteří vývojáři to formulují tak, že hlavní pokrok současných modelů už není v syrových benchmarcích, ale v chování - perzistenci, sebehodnocení, méně zbytečných kroků.

Opus 4.8 dává smysl, pokud:

Děláte dlouhé agentní coding sessions, kde předčasné hlášení “hotovo” byl problém
Potřebujete model, který proaktivně flaguje nejistotu (finanční analýza, právo, audit)
Využijete Fast Mode pro rychlejší a levnější běhy
Pracujete v Cursoru nebo vlastním harnessu - rané reporty hlásí lepší perzistenci i mimo oficiální prostředí

Zvážit konkurenci, pokud:

Pracujete primárně v terminálu - GPT-5.5 vede Terminal-Bench
Potřebujete maximální cenovou efektivitu - čínské open-weights modely jsou výrazně levnější
Hledáte nezávisle ověřená data - zatím jsou k dispozici hlavně self-reporty

Co počkat:

Nezávislé testy od BridgeBench a aktualizovaná data z CursorBench
Nezávislé ověření honesty a kalibrace jistoty
Produkční zkušenosti s Dynamic Workflows po skončení research preview
Mythos-class modely, které Anthropic slibuje “v nadcházejících týdnech” po dokončení Project Glasswing

Závěr

Opus 4.8 je solidní a cílený upgrade, ne revoluce. Na benchmarcích přidává tři až pět bodů, drží stejnou cenu a na SWE-Bench Pro nastavuje nové maximum. Kvalitativní posun ale leží v chování - méně předčasných hlášení “hotovo”, upřímnější přiznání nejistoty, čtyřnásobně méně přehlédnutých chyb v kódu. To je přesně ta třída zlepšení, kterou dlouhé agentní běhy potřebují a kterou benchmarky špatně zachycují.

Šest týdnů po 4.7 a se stejnou cenou to vypadá jako reakce na konkurenční tlak. GPT-5.5 drží Terminal-Bench, čínské modely tlačí cenu dolů, Google ukázal Antigravity orchestraci. Opus 4.8 odpovídá na všechny tři fronty - lepším chováním, Fast Mode cenou a Dynamic Workflows orchestrací. Zda to stačí, ukážou nezávislé testy a produkční nasazení. Pokud děláte agentní práci nebo dlouhé coding úlohy, stojí za to přepnout. Pokud hledáte maximální raw inteligenci v terminálu, GPT-5.5 je v některých oblastech stále těsně vpředu.