Anthropic 28. 5. 2026

Anthropic: Claude Opus 4.8

Item: Anthropic: Claude Opus 4.8
Author: Patrick Zandl

anthropic/claude-opus-4.8

Opus 4.8 je cílený upgrade pro agentní práci a dlouhé coding sessions. Na SWE-Bench Pro nastavuje nové maximum (69,2 %), drží stejnou cenu jako 4.7 a přidává Fast Mode za třetinu předchozí ceny. Největší přidaná hodnota leží v chování - méně předčasných hlášení "hotovo", upřímnější přiznání nejistoty a čtyřnásobně méně přehlédnutých chyb v kódu. Nezávislé ověření dat zatím chybí.

Související analýza Anatomie jednoho hype: kde čínský GLM-5.2 dotáhl Opus a co je fantazie? 29. 6. 2026 Claude Opus 4.8 - Anthropic sází na chování modelu, ne na benchmarky 28. 5. 2026

✦

Killer Feature Kombinace upřímnosti modelu a perzistence v agentních bězích - méně předčasných ukončení a proaktivní flagování anomálií, které jiné modely přehlížely.

⚠

Skryté riziko Všechna klíčová výkonová tvrzení jsou zatím self-reporty Anthropic. Nezávislá data z BridgeBench a CursorBench teprve přijdou - do té doby je namístě zdrženlivost u marketingových headline čísel.

$5 / 1M vstup

$25 / 1M výstup

1.0M kontext

128k max výstup

Vyzkoušet na OpenRouter

textimage text Agentní AI a autonomní běhyProgramování a generování kóduDlouhotrvající asynchronní úlohy

📊 Orientační hodnocení

🧠 Reasoning

Výborný

💻 Programování

Výborný

📊 Kontextové okno

Výborný

Uvedená čísla jsou odhad LLM analyzátoru na základě popisu modelu, nikoli měřené benchmarky. Pro tento model jsme zatím nenašli dostatek publikovaných benchmarků k výpočtu VibeCode skóre.

⚖️ Porovnání s konkurencí

Model	Cenové srovnání	Poznámka
Anthropic Claude Opus 4.8	← Právě prohlížíte	—
Anthropic Claude Opus 4.7	Identická cena (5 USD vstup / 25 USD výstup).	Opus 4.8 je přímý nástupce za stejnou cenu. Přináší zejména zlepšené chování v agentních bězích, nižší počet přehlédnutých chyb a Fast Mode za nižší cenu.
OpenAI GPT-5.5	Cenová srovnání závisí na variantě; Opus 4.8 Fast Mode otevírá levnější vstupní bod.	GPT-5.5 vede na Terminal-Bench 2.1 (78,2 % vs 74,6 %), ale Opus 4.8 dominuje na SWE-Bench Pro (69,2 % vs 58,6 %) a Humanity's Last Exam. Volba závisí na konkrétním use case.
Google Gemini 3.1 Pro	Gemini 3.1 Pro je výrazně levnější.	Opus 4.8 překonává Gemini 3.1 Pro na všech sledovaných benchmarcích. Gemini je vhodný jako cenově efektivní alternativa pro méně náročné úlohy.

🎯 Rozhodovací pomocník

✓

Použij když...

Dlouhé agentní coding sessions v Claude Code, Cursoru nebo vlastním harnessu
Finanční a právní analýza dokumentů s důrazem na přesnost citací
Asynchronní zpracování komplexních úloh s vysokou mírou samostatnosti

✗

Nepoužívej když...

Primárně terminálová práce (GPT-5.5 vede Terminal-Bench)
Scénáře s maximálním důrazem na cenovou efektivitu (zvážit čínské open-weights modely)
Produkční nasazení Dynamic Workflows (stále v research preview)

Ideální pro:

Vývojáři AI agentů a autonomních systémůSoftwaroví inženýři pracující s Cursorem nebo vlastním harnesemAnalytici v právu, financích a auditu vyžadující proaktivní flagování nejistoty

💪 Silné a slabé stránky

+ Silné stránky

Chování v agentních bězích

Model čtyřnásobně méně často propustí chybu v generovaném kódu bez povšimnutí a méně předčasně hlásí úlohu jako dokončenou - klíčové pro produkční agentní nasazení.

SWE-Bench Pro výsledky

Nejvyšší zaznamenané skóre na SWE-Bench Pro (69,2 %) - benchmark specificky zaměřený na agentní řešení reálných programátorských úloh.

Upřímnost a kalibrace

Model proaktivně upozorňuje na problémy ve vstupech a výstupech, přiznává nejistotu a flaguje anomálie - ověřeno partnery v právu, financích a analytice.

Fast Mode

2,5× rychlejší varianta za třetinu předchozí ceny fast varianty, aktivovatelná příkazem /fast v Claude Code.

− Slabé stránky

Terminal-Bench

Na Terminal-Bench 2.1 vede GPT-5.5 se 78,2 % proti 74,6 % u Opus 4.8 - pro úlohy primárně v terminálu není Opus 4.8 jednoznačnou volbou.

Self-reportovaná data

Všechna výkonová data jsou zatím self-reporty Anthropic. Nezávislé ověření od BridgeBench a dalších ještě není k dispozici.

Dynamic Workflows v preview

Orchestrace stovek paralelních subagentů je dostupná jen v research preview - není vhodná pro produkční nasazení bez dalšího testování.

📝 Detailní popis

Claude Opus 4.8 vyšel 28. května 2026, pouhých šest týdnů po Opus 4.7, za nezměněnou cenu 5/25 dolarů. Inkrementální skok na benchmarcích, ale kvalitativní posun v chování modelu během autonomních běhů.

Unikátní charakteristiky

Opus 4.8 není další level ve smyslu velkých předchozích skoků. Je to cílený upgrade pro vývojáře, kteří Claude používají na reálnou agentní práci - dlouhé coding sessions, vlastní harnessy, Cursor. Model čtyřnásobně méně často propustí chybu v kódu bez povšimnutí, méně předčasně hlásí “hotovo” a upřímněji přiznává nejistotu. Fast Mode běží 2,5× rychleji za třetinu předchozí ceny.

Benchmarky

Srovnání Opus 4.8 proti klíčovým konkurentům (data: self-reporty Anthropic, nezávislé ověření zatím chybí):

Benchmark	Opus 4.8	Opus 4.7	GPT-5.5	Gemini 3.1 Pro
SWE-Bench Pro	69,2 %	64,3 %	58,6 %	54,2 %
Terminal-Bench 2.1	74,6 %	66,1 %	78,2 %	70,3 %
Humanity’s Last Exam (bez nástrojů)	49,8 %	46,9 %	41,4 %	44,4 %
Humanity’s Last Exam (s nástroji)	57,9 %	54,7 %	52,2 %	51,4 %
OSWorld-Verified	83,4 %	82,8 %	78,7 %	76,2 %
GDPval-AA (Elo)	1890	1753	1769	1314
Finance Agent v2	53,9 %	51,5 %	51,8 %	43,0 %

SWE-Bench Pro 69,2 % je podle Anthropic nejvyšší zaznamenané skóre na tomto benchmarku. Na Terminal-Bench 2.1 ale stále vede GPT-5.5 se 78,2 % - pro primárně terminálovou práci zůstává GPT-5.5 silnou volbou.

Silné stránky

Chování v agentních bězích

Model čtyřnásobně méně často propustí chybu v generovaném kódu bez povšimnutí a méně předčasně hlásí úlohu jako dokončenou. Pro dlouhé autonomní coding sessions je to relevantnější než další bod na benchmarkovém grafu.

SWE-Bench Pro výsledky

Nejvyšší zaznamenané skóre na SWE-Bench Pro - benchmark specificky zaměřený na agentní řešení reálných programátorských úloh z GitHub repozitářů.

Upřímnost a kalibrace

Model proaktivně upozorňuje na problémy ve vstupech a výstupech. Bridgewater, Harvey a Hebbia nezávisle popsali tendenci Opus 4.8 flagovat anomálie, které předchozí modely přehlížely.

Fast Mode

Příkaz /fast v Claude Code aktivuje variantu 2,5× rychlejší za třetinu předchozí ceny fast varianty. Pro dlouhé coding sessions, kde latence rozhoduje o použitelnosti, je to praktický rozdíl.

Slabé stránky

Terminal-Bench

GPT-5.5 vede Terminal-Bench 2.1 se 78,2 % proti 74,6 % u Opus 4.8. Headline “poráží GPT-5.5” je selektivní - na agentním terminal codingu OpenAI drží náskok.

Self-reportovaná data

Všechna výkonová data jsou zatím self-reporty Anthropic. Nezávislé ověření od BridgeBench, CursorBench a dalších ještě není k dispozici. Tvrzení “nejupřímnější model” zůstává marketingové, dokud neexistuje nezávislý test kalibrace jistoty.

Dynamic Workflows v research preview

Orchestrace stovek paralelních subagentů (odpověď na Google Antigravity 2.0) je dostupná jen v research preview. Produkční zkušenosti teprve přijdou.

📊 Orientační hodnocení

⚖️ Porovnání s konkurencí

🎯 Rozhodovací pomocník

Použij když...

Nepoužívej když...

💪 Silné a slabé stránky

+ Silné stránky

− Slabé stránky

📝 Detailní popis

Unikátní charakteristiky

Benchmarky

Silné stránky

Chování v agentních bězích

SWE-Bench Pro výsledky

Upřímnost a kalibrace

Fast Mode

Slabé stránky

Terminal-Bench

Self-reportovaná data

Dynamic Workflows v research preview

🔗 Další modely od Anthropic