A
Anthropic 28. 5. 2026

Anthropic: Claude Opus 4.8

anthropic/claude-opus-4.8

Opus 4.8 je cílený upgrade pro agentní práci a dlouhé coding sessions. Na SWE-Bench Pro nastavuje nové maximum (69,2 %), drží stejnou cenu jako 4.7 a přidává Fast Mode za třetinu předchozí ceny. Největší přidaná hodnota leží v chování - méně předčasných hlášení "hotovo", upřímnější přiznání nejistoty a čtyřnásobně méně přehlédnutých chyb v kódu. Nezávislé ověření dat zatím chybí.

Killer Feature Kombinace upřímnosti modelu a perzistence v agentních bězích - méně předčasných ukončení a proaktivní flagování anomálií, které jiné modely přehlížely.
Skryté riziko Všechna klíčová výkonová tvrzení jsou zatím self-reporty Anthropic. Nezávislá data z BridgeBench a CursorBench teprve přijdou - do té doby je namístě zdrženlivost u marketingových headline čísel.
$5 / 1M vstup
$25 / 1M výstup
1.0M kontext
128k max výstup
textimage text Agentní AI a autonomní běhyProgramování a generování kóduDlouhotrvající asynchronní úlohy

📊 Orientační hodnocení

🧠 Reasoning
92
Výborný
💻 Programování
95
Výborný
📊 Kontextové okno
90
Výborný

Uvedená čísla jsou odhad LLM analyzátoru na základě popisu modelu, nikoli měřené benchmarky. Pro tento model jsme zatím nenašli dostatek publikovaných benchmarků k výpočtu VibeCode skóre.

⚖️ Porovnání s konkurencí

Model Cenové srovnání Poznámka
Anthropic Claude Opus 4.8
← Právě prohlížíte
Anthropic Claude Opus 4.7
Identická cena (5 USD vstup / 25 USD výstup). Opus 4.8 je přímý nástupce za stejnou cenu. Přináší zejména zlepšené chování v agentních bězích, nižší počet přehlédnutých chyb a Fast Mode za nižší cenu.
OpenAI GPT-5.5
Cenová srovnání závisí na variantě; Opus 4.8 Fast Mode otevírá levnější vstupní bod. GPT-5.5 vede na Terminal-Bench 2.1 (78,2 % vs 74,6 %), ale Opus 4.8 dominuje na SWE-Bench Pro (69,2 % vs 58,6 %) a Humanity's Last Exam. Volba závisí na konkrétním use case.
Google Gemini 3.1 Pro
Gemini 3.1 Pro je výrazně levnější. Opus 4.8 překonává Gemini 3.1 Pro na všech sledovaných benchmarcích. Gemini je vhodný jako cenově efektivní alternativa pro méně náročné úlohy.

🎯 Rozhodovací pomocník

Použij když...

  • Dlouhé agentní coding sessions v Claude Code, Cursoru nebo vlastním harnessu
  • Finanční a právní analýza dokumentů s důrazem na přesnost citací
  • Asynchronní zpracování komplexních úloh s vysokou mírou samostatnosti

Nepoužívej když...

  • Primárně terminálová práce (GPT-5.5 vede Terminal-Bench)
  • Scénáře s maximálním důrazem na cenovou efektivitu (zvážit čínské open-weights modely)
  • Produkční nasazení Dynamic Workflows (stále v research preview)
Ideální pro:
Vývojáři AI agentů a autonomních systémůSoftwaroví inženýři pracující s Cursorem nebo vlastním harnesemAnalytici v právu, financích a auditu vyžadující proaktivní flagování nejistoty

💪 Silné a slabé stránky

+ Silné stránky

Chování v agentních bězích

Model čtyřnásobně méně často propustí chybu v generovaném kódu bez povšimnutí a méně předčasně hlásí úlohu jako dokončenou - klíčové pro produkční agentní nasazení.

SWE-Bench Pro výsledky

Nejvyšší zaznamenané skóre na SWE-Bench Pro (69,2 %) - benchmark specificky zaměřený na agentní řešení reálných programátorských úloh.

Upřímnost a kalibrace

Model proaktivně upozorňuje na problémy ve vstupech a výstupech, přiznává nejistotu a flaguje anomálie - ověřeno partnery v právu, financích a analytice.

Fast Mode

2,5× rychlejší varianta za třetinu předchozí ceny fast varianty, aktivovatelná příkazem /fast v Claude Code.

Slabé stránky

Terminal-Bench

Na Terminal-Bench 2.1 vede GPT-5.5 se 78,2 % proti 74,6 % u Opus 4.8 - pro úlohy primárně v terminálu není Opus 4.8 jednoznačnou volbou.

Self-reportovaná data

Všechna výkonová data jsou zatím self-reporty Anthropic. Nezávislé ověření od BridgeBench a dalších ještě není k dispozici.

Dynamic Workflows v preview

Orchestrace stovek paralelních subagentů je dostupná jen v research preview - není vhodná pro produkční nasazení bez dalšího testování.

📝 Detailní popis

Claude Opus 4.8 vyšel 28. května 2026, pouhých šest týdnů po Opus 4.7, za nezměněnou cenu 5/25 dolarů. Inkrementální skok na benchmarcích, ale kvalitativní posun v chování modelu během autonomních běhů.

Unikátní charakteristiky

Opus 4.8 není další level ve smyslu velkých předchozích skoků. Je to cílený upgrade pro vývojáře, kteří Claude používají na reálnou agentní práci - dlouhé coding sessions, vlastní harnessy, Cursor. Model čtyřnásobně méně často propustí chybu v kódu bez povšimnutí, méně předčasně hlásí “hotovo” a upřímněji přiznává nejistotu. Fast Mode běží 2,5× rychleji za třetinu předchozí ceny.

Benchmarky

Srovnání Opus 4.8 proti klíčovým konkurentům (data: self-reporty Anthropic, nezávislé ověření zatím chybí):

BenchmarkOpus 4.8Opus 4.7GPT-5.5Gemini 3.1 Pro
SWE-Bench Pro69,2 %64,3 %58,6 %54,2 %
Terminal-Bench 2.174,6 %66,1 %78,2 %70,3 %
Humanity’s Last Exam (bez nástrojů)49,8 %46,9 %41,4 %44,4 %
Humanity’s Last Exam (s nástroji)57,9 %54,7 %52,2 %51,4 %
OSWorld-Verified83,4 %82,8 %78,7 %76,2 %
GDPval-AA (Elo)1890175317691314
Finance Agent v253,9 %51,5 %51,8 %43,0 %

SWE-Bench Pro 69,2 % je podle Anthropic nejvyšší zaznamenané skóre na tomto benchmarku. Na Terminal-Bench 2.1 ale stále vede GPT-5.5 se 78,2 % - pro primárně terminálovou práci zůstává GPT-5.5 silnou volbou.

Silné stránky

Chování v agentních bězích

Model čtyřnásobně méně často propustí chybu v generovaném kódu bez povšimnutí a méně předčasně hlásí úlohu jako dokončenou. Pro dlouhé autonomní coding sessions je to relevantnější než další bod na benchmarkovém grafu.

SWE-Bench Pro výsledky

Nejvyšší zaznamenané skóre na SWE-Bench Pro - benchmark specificky zaměřený na agentní řešení reálných programátorských úloh z GitHub repozitářů.

Upřímnost a kalibrace

Model proaktivně upozorňuje na problémy ve vstupech a výstupech. Bridgewater, Harvey a Hebbia nezávisle popsali tendenci Opus 4.8 flagovat anomálie, které předchozí modely přehlížely.

Fast Mode

Příkaz /fast v Claude Code aktivuje variantu 2,5× rychlejší za třetinu předchozí ceny fast varianty. Pro dlouhé coding sessions, kde latence rozhoduje o použitelnosti, je to praktický rozdíl.

Slabé stránky

Terminal-Bench

GPT-5.5 vede Terminal-Bench 2.1 se 78,2 % proti 74,6 % u Opus 4.8. Headline “poráží GPT-5.5” je selektivní - na agentním terminal codingu OpenAI drží náskok.

Self-reportovaná data

Všechna výkonová data jsou zatím self-reporty Anthropic. Nezávislé ověření od BridgeBench, CursorBench a dalších ještě není k dispozici. Tvrzení “nejupřímnější model” zůstává marketingové, dokud neexistuje nezávislý test kalibrace jistoty.

Dynamic Workflows v research preview

Orchestrace stovek paralelních subagentů (odpověď na Google Antigravity 2.0) je dostupná jen v research preview. Produkční zkušenosti teprve přijdou.

🔗 Další modely od Anthropic