Claude Opus 4.8 vyšel 28. května 2026, pouhých šest týdnů po Opus 4.7, za nezměněnou cenu 5/25 dolarů. Inkrementální skok na benchmarcích, ale kvalitativní posun v chování modelu během autonomních běhů.
Unikátní charakteristiky
Opus 4.8 není další level ve smyslu velkých předchozích skoků. Je to cílený upgrade pro vývojáře, kteří Claude používají na reálnou agentní práci - dlouhé coding sessions, vlastní harnessy, Cursor. Model čtyřnásobně méně často propustí chybu v kódu bez povšimnutí, méně předčasně hlásí “hotovo” a upřímněji přiznává nejistotu. Fast Mode běží 2,5× rychleji za třetinu předchozí ceny.
Benchmarky
Srovnání Opus 4.8 proti klíčovým konkurentům (data: self-reporty Anthropic, nezávislé ověření zatím chybí):
| Benchmark | Opus 4.8 | Opus 4.7 | GPT-5.5 | Gemini 3.1 Pro |
|---|---|---|---|---|
| SWE-Bench Pro | 69,2 % | 64,3 % | 58,6 % | 54,2 % |
| Terminal-Bench 2.1 | 74,6 % | 66,1 % | 78,2 % | 70,3 % |
| Humanity’s Last Exam (bez nástrojů) | 49,8 % | 46,9 % | 41,4 % | 44,4 % |
| Humanity’s Last Exam (s nástroji) | 57,9 % | 54,7 % | 52,2 % | 51,4 % |
| OSWorld-Verified | 83,4 % | 82,8 % | 78,7 % | 76,2 % |
| GDPval-AA (Elo) | 1890 | 1753 | 1769 | 1314 |
| Finance Agent v2 | 53,9 % | 51,5 % | 51,8 % | 43,0 % |
SWE-Bench Pro 69,2 % je podle Anthropic nejvyšší zaznamenané skóre na tomto benchmarku. Na Terminal-Bench 2.1 ale stále vede GPT-5.5 se 78,2 % - pro primárně terminálovou práci zůstává GPT-5.5 silnou volbou.
Silné stránky
Chování v agentních bězích
Model čtyřnásobně méně často propustí chybu v generovaném kódu bez povšimnutí a méně předčasně hlásí úlohu jako dokončenou. Pro dlouhé autonomní coding sessions je to relevantnější než další bod na benchmarkovém grafu.
SWE-Bench Pro výsledky
Nejvyšší zaznamenané skóre na SWE-Bench Pro - benchmark specificky zaměřený na agentní řešení reálných programátorských úloh z GitHub repozitářů.
Upřímnost a kalibrace
Model proaktivně upozorňuje na problémy ve vstupech a výstupech. Bridgewater, Harvey a Hebbia nezávisle popsali tendenci Opus 4.8 flagovat anomálie, které předchozí modely přehlížely.
Fast Mode
Příkaz /fast v Claude Code aktivuje variantu 2,5× rychlejší za třetinu předchozí ceny fast varianty. Pro dlouhé coding sessions, kde latence rozhoduje o použitelnosti, je to praktický rozdíl.
Slabé stránky
Terminal-Bench
GPT-5.5 vede Terminal-Bench 2.1 se 78,2 % proti 74,6 % u Opus 4.8. Headline “poráží GPT-5.5” je selektivní - na agentním terminal codingu OpenAI drží náskok.
Self-reportovaná data
Všechna výkonová data jsou zatím self-reporty Anthropic. Nezávislé ověření od BridgeBench, CursorBench a dalších ještě není k dispozici. Tvrzení “nejupřímnější model” zůstává marketingové, dokud neexistuje nezávislý test kalibrace jistoty.
Dynamic Workflows v research preview
Orchestrace stovek paralelních subagentů (odpověď na Google Antigravity 2.0) je dostupná jen v research preview. Produkční zkušenosti teprve přijdou.