Anthropic vydal 28. května 2026 Claude Opus 4.8, pouhých šest týdnů po Opus 4.7. Kadence vydávání se zrychlila a model sám je jiného druhu než předchozí velké skoky. Na čistých benchmarcích jde o inkrementální zlepšení, typicky o tři až pět procentních bodů. Skutečný posun leží jinde - v chování modelu během dlouhých autonomních běhů. Anthropic staví celé vydání na tom, že Opus 4.8 přestává předčasně hlásit “hotovo”, upřímněji přiznává nejistotu a méně často propustí chybu v kódu. Pro vývojáře, kteří modely používají na reálnou agentní práci, je tohle relevantnější než další bod na grafu.
Cena zůstává stejná jako u 4.7 - 5 dolarů za milion vstupních tokenů a 25 dolarů za milion výstupních. K tomu Anthropic přidal Fast Mode, Dynamic Workflows a uživatelské řízení effort úrovní. Pro vibecoding.cz publikum přinášíme fakta z oficiálního oznámení, dostupných benchmarků a prvních nezávislých reakcí.
Co Opus 4.8 je
Model je dostupný okamžitě na claude.ai, přes API pod identifikátorem claude-opus-4-8 a na hlavních cloudových platformách. Drží 1M tokenů kontextu. Výchozí effort úroveň je high, uživatel může zvolit “extra” (xhigh v Claude Code) nebo “max” pro náročnější úlohy a dlouhé asynchronní běhy. Anthropic zvýšil rate limity v Claude Code, aby pokryly vyšší spotřebu tokenů u vyšších effort úrovní.
Doplňují to tři vylepšení tokenové ekonomiky - prompt caching s úsporou až 90 procent, batch processing s úsporou 50 procent a obecně lepší tokenová efektivita než u 4.7. Messages API nově přijímá systémové vstupy uvnitř pole zpráv, takže lze aktualizovat instrukce uprostřed úlohy bez porušení prompt cache.
Benchmarky
Anthropic zveřejnil srovnání proti Opus 4.7, GPT-5.5 a Gemini 3.1 Pro. Všechna čísla jsou self-reporty Anthropic.
| Benchmark | Opus 4.8 | Opus 4.7 | GPT-5.5 | Gemini 3.1 Pro |
|---|---|---|---|---|
| SWE-Bench Pro (agentní coding) | 69,2 % | 64,3 % | 58,6 % | 54,2 % |
| Terminal-Bench 2.1 | 74,6 % | 66,1 % | 78,2 % | 70,3 % |
| Humanity’s Last Exam (bez nástrojů) | 49,8 % | 46,9 % | 41,4 % | 44,4 % |
| Humanity’s Last Exam (s nástroji) | 57,9 % | 54,7 % | 52,2 % | 51,4 % |
| OSWorld-Verified (počítačové úlohy) | 83,4 % | 82,8 % | 78,7 % | 76,2 % |
| GDPval-AA (znalostní práce, Elo) | 1890 | 1753 | 1769 | 1314 |
| Finance Agent v2 | 53,9 % | 51,5 % | 51,8 % | 43,0 % |
SWE-Bench Pro 69,2 procenta je podle Anthropic nejvyšší zaznamenané skóre na tomto benchmarku. Nárůst o 4,9 bodu proti 4.7 je v kategorii agentního codingu znatelný. Online-Mind2Web dosáhl 84 procent. Nezávislé Artificial Analysis zařadilo Opus 4.8 na vrchol svého Intelligence Indexu se skóre 61,4.
Jeden detail v tabulce stojí za pozornost. Na Terminal-Bench 2.1 stále vede GPT-5.5 se 78,2 procenta proti 74,6 procenta u Opus 4.8. Anthropic to v materiálech ukázal poctivě, ale obecný headline “poráží GPT-5.5” je selektivní - na agentním terminal codingu OpenAI drží náskok. Pro úlohy v terminálu zůstává GPT-5.5 silnou volbou.
Hlavní zpráva je chování, ne čísla
Anthropic popisuje Opus 4.8 jako model s ostřejším úsudkem, větší upřímností o vlastním postupu a schopností pracovat nezávisle déle. Tvrdí, že model čtyřnásobně méně často propustí chybu v generovaném kódu bez povšimnutí. Rané testy to z velké části potvrzují.
Niko Grupen, vedoucí aplikovaného výzkumu v právnické AI firmě Harvey, uvedl, že Opus 4.8 dosáhl nejvyššího skóre v jejich interním Legal Agent Benchmarku a přináší přesnost, která se přímo promítá do množství práce, kterou advokáti mohou s důvěrou předat modelu. Aabhas Sharma, technický ředitel firmy Hebbia (nástroje pro analýzu dokumentů), označil model za výrazně lepší ve tvorbě finančních dokumentů s patrně přesnějšími citacemi. Společnost Bridgewater zdůraznila, že největší rozdíl je v tendenci Opus 4.8 proaktivně upozorňovat na problémy ve vstupech a výstupech analýzy - něco, co ostatní modely běžně přehlížely a nechávaly na uživateli.
Tady je ale namístě zdrženlivost. Anthropic neposkytl žádné vysvětlení metodologie, jak model k vyšší upřímnosti došel. Inc.com to zachytil přesně - tvrzení “nejupřímnější model” zůstává marketingové, dokud nebude k dispozici nezávislý test kalibrace jistoty. Tendence flagovat nejistotu je v testimonialech od partnerů popsaná konzistentně, což je signál, ale partneři Anthropic nejsou nezávislí hodnotitelé.
Fast Mode a cenový tlak
Fast Mode je nejkonkrétnější novinka pro každodenní práci. Jde o stejný model běžící přibližně 2,5krát rychleji za třetinu předchozí ceny fast varianty. Aktivace přes příkaz /fast v Claude Code. Pro dlouhé coding sessions, kde latence rozhoduje o použitelnosti, je to praktický rozdíl.
Strategicky je Fast Mode tlak na cenovou válku. Rychlejší a levnější varianta frontier modelu je přímá odpověď na cenovou pozici GPT-5.5 a na nástup levných čínských modelů jako DeepSeek V4-Flash. Anthropic drží katalogovou cenu Opus 4.8 na úrovni 4.7, ale Fast Mode otevírá levnější vstupní bod bez nutnosti sáhnout po slabším modelu.
Dynamic Workflows
Dynamic Workflows je funkce v research preview, která umožňuje Claude spustit v jedné session stovky paralelních subagentů. To je přímá odpověď na Google Antigravity 2.0, který přesně tuhle multi-agent orchestraci ukázal devět dní předtím. Anthropic tím dohání platformní funkce, kde Google a OpenAI tlačí na orchestraci agentů.
Pro Claude Code to znamená, že lze předat větší úlohu, kterou model rozloží mezi paralelní subagenty místo sekvenčního zpracování. Pro long-horizon coding s mnoha nezávislými dílčími úkoly je to potenciálně zásadní zrychlení, ale jako research preview to ještě není produkčně ověřené.
Co Opus 4.8 znamená a co počkat
Opus 4.8 není další level v tom smyslu, jako byly některé předchozí skoky. Je to cílený upgrade pro lidi, kteří Claude používají na reálnou práci - dlouhé coding sessions, agenty, Cursor, vlastní workflows. Největší přidaná hodnota leží v kombinaci upřímnosti, perzistence a Fast Mode. Někteří vývojáři to formulují tak, že hlavní pokrok současných modelů už není v syrových benchmarcích, ale v chování - perzistenci, sebehodnocení, méně zbytečných kroků.
Opus 4.8 dává smysl, pokud:
- Děláte dlouhé agentní coding sessions, kde předčasné hlášení “hotovo” byl problém
- Potřebujete model, který proaktivně flaguje nejistotu (finanční analýza, právo, audit)
- Využijete Fast Mode pro rychlejší a levnější běhy
- Pracujete v Cursoru nebo vlastním harnessu - rané reporty hlásí lepší perzistenci i mimo oficiální prostředí
Zvážit konkurenci, pokud:
- Pracujete primárně v terminálu - GPT-5.5 vede Terminal-Bench
- Potřebujete maximální cenovou efektivitu - čínské open-weights modely jsou výrazně levnější
- Hledáte nezávisle ověřená data - zatím jsou k dispozici hlavně self-reporty
Co počkat:
- Nezávislé testy od BridgeBench a aktualizovaná data z CursorBench
- Nezávislé ověření honesty a kalibrace jistoty
- Produkční zkušenosti s Dynamic Workflows po skončení research preview
- Mythos-class modely, které Anthropic slibuje “v nadcházejících týdnech” po dokončení Project Glasswing
Závěr
Opus 4.8 je solidní a cílený upgrade, ne revoluce. Na benchmarcích přidává tři až pět bodů, drží stejnou cenu a na SWE-Bench Pro nastavuje nové maximum. Kvalitativní posun ale leží v chování - méně předčasných hlášení “hotovo”, upřímnější přiznání nejistoty, čtyřnásobně méně přehlédnutých chyb v kódu. To je přesně ta třída zlepšení, kterou dlouhé agentní běhy potřebují a kterou benchmarky špatně zachycují.
Šest týdnů po 4.7 a se stejnou cenou to vypadá jako reakce na konkurenční tlak. GPT-5.5 drží Terminal-Bench, čínské modely tlačí cenu dolů, Google ukázal Antigravity orchestraci. Opus 4.8 odpovídá na všechny tři fronty - lepším chováním, Fast Mode cenou a Dynamic Workflows orchestrací. Zda to stačí, ukážou nezávislé testy a produkční nasazení. Pokud děláte agentní práci nebo dlouhé coding úlohy, stojí za to přepnout. Pokud hledáte maximální raw inteligenci v terminálu, GPT-5.5 je v některých oblastech stále těsně vpředu.