Claude Sonnet 5 - pragmatický pracovní model za zlomek ceny Opus

Anthropic vydal Claude Sonnet 5, který označuje za svůj nejagentnější dosavadní model Sonnet.

Po měsíci plném frontier dramat, kdy se řešilo stažení Fable 5, vládní dohled nad GPT-5.6 a hardwarové ambice čínského LongCatu, je tohle vydání osvěžující svou nedramatičností. Sonnet 5 nezávodí o špičku. Zužuje mezeru na Opus 4.8 za zlomek jeho ceny a je dostupný hned na všech plánech, bez čekání a bez omezeného přístupu. Možná nejpraktičtější vydání měsíce. Nezávislé měření Artificial Analysis - firmy, která modely měří a srovnává - ale ukazuje háček: Sonnet 5 spotřebuje na úlohu tolik tokenů, že po skončení úvodní slevy vyjde jedna úloha dráž než na dražším Opusu 4.8. Čísla a fakta níže pocházejí z oznámení Anthropic a benchmarků ze System Cardu.

Co Sonnet 5 umí

Hlavní zprávou je posun v agentních schopnostech. Sonnet 5 dělá plány, používá nástroje jako prohlížeč a terminál a běží autonomně na úrovni, která ještě před pár měsíci vyžadovala větší a dražší modely. Anthropic to staví jasně: nejvýraznější zisky v agentních schopnostech byly v poslední době u modelů třídy Opus, a Sonnet 5 tu mezeru zužuje.

Specifikace odpovídají vlajkové úrovni. Model má kontextové okno milion tokenů, maximální výstup 128 tisíc tokenů, přijímá text i obrázky a ve výchozím nastavení běží s adaptivním uvažováním, které samo volí hloubku reasoningu podle úlohy. Žádná menší varianta kontextu neexistuje, milion tokenů je default i maximum.

Anthropic je v komunikaci tentokrát střízlivý. Netvrdí, že Sonnet 5 poráží Opus, naopak opakovaně uvádí, že Opus 4.8 zůstává volbou pro vyšší přesnost. Sonnet 5 a Opus 4.8 teď pokrývají jeden výkonnostní rozsah, kde Sonnet nabízí nižší cenu a Opus vyšší přesnost, a uživatel mezi nimi volí úrovní úsilí podle toho, co potřebuje.

Benchmarky: blízko Opusu, ale pod ním

Konkrétní čísla nejsou na hlavní stránce oznámení, Anthropic je dává do System Cardu. Hodnoty v tabulce pocházejí ze System Cardu, jak ho cituje blog Coursiv a Handy AI, takže jde o oficiální self-report Anthropic, ne o nezávislé měření.

Benchmark	Sonnet 5	Sonnet 4.6	Opus 4.8
SWE-Bench Verified	85,2 %	–	–
SWE-Bench Pro	63,2 %	58,1 %	69,2 %
Terminal-Bench 2.1	80,4 %	67,0 %	–
BrowseComp (multi-agent)	86,6 %	76,2 %	–
OSWorld-Verified	81,2 %	78,5 %	–
HLE (s nástroji)	57,4 %	46,8 %	–
FrontierCode v1	38,8 %	15,1 %	–
GDPval-AA v2	1609 Elo	1381 Elo	–

Klíčový je řádek SWE-Bench Pro. Sonnet 5 dosahuje 63,2 procenta, výrazně nad Sonnet 4.6 (58,1), ale pod Opus 4.8 (69,2). To potvrzuje oficiální rámování: Sonnet 5 je blízko Opus, ne nad ním. Skoky proti předchůdci jsou ale značné. FrontierCode v1, který testuje agentní coding na reálných úlohách ve stylu pull requestů, vyskočil z 15,1 na 38,8 procenta, tedy víc než dvojnásobek. Terminal-Bench 2.1 vzrostl ze 67 na 80,4, AutomationBench z 5,3 na 13,5. Reálné posuny v agentní práci, ne kosmetika.

Jedno varování k datům, která jsme do tabulky vědomě nezahrnuli. V první polovině roku kolovala výrazně vyšší čísla, například SWE-Bench přes 90 procent, Terminal-Bench kolem 94 procent nebo GPQA Diamond 96 procent, a objevují se dodnes na různých blozích a leaderboardech. Patří starší interní iteraci modelu s kódovým označením Fennec, ne aktuálnímu vydání z 30. června. Kdo na ně narazí, ať je ignoruje. S reálným Sonnet 5 nesouvisejí a nadhodnocují jeho skutečný výkon o deset i víc procentních bodů.

Nezávislejší pohled nabízí Artificial Analysis, která provozuje vlastní sadu benchmarků. Na jejím souhrnném Intelligence Indexu - známce složené z devíti benchmarků - dosáhl Sonnet 5 s maximálním úsilím 53 bodů a skončil pátý, dva až tři body za GPT-5.5 a Opusem 4.8, který vede s 56 body. Stejnou známku má Sonnet 5 jako GPT-5.5 s vysokým nastavením reasoningu, proti Sonnetu 4.6 je to posun o 6 bodů. Na agentní znalostní práci (benchmarky AA-Briefcase a GDPval-AA) sedí Sonnet 5 kousek nad Opusem 4.8, před ním je jen stažený Fable 5. Na fyzikální úvaze CritPt naopak zvládl jen 17 procent - o 14 bodů víc než předchůdce, ale pod GLM-5.2, Opusem, Fable i GPT-5.5. Artificial Analysis měla k modelu přístup ještě před vydáním, takže jde o externí měření, ne plně nezávislé.

Cena a háček s tokenizerem

Katalogová cena vypadá lákavěji, než jaká je realita. Sonnet 5 má úvodní cenu 2 dolary za milion vstupních a 10 za výstupní tokeny do 31. srpna 2026, poté přechází na 3 a 15 dolarů. Pro srovnání Opus 4.8 stojí 5 a 25 dolarů. Sonnet 5 je tedy zhruba na třetině až polovině ceny Opus při výkonu blízko něj, což je silný argument pro běžnou práci.

Háček je v novém tokenizeru. Sonnet 5 používá stejný aktualizovaný tokenizer, jaký Anthropic zavedl u Opus 4.7 a používá i u Opus 4.8, který stejný text mapuje na 1,0 až 1,35násobek tokenů podle typu obsahu. To znamená, že nominální cena za token klesla, ale počet tokenů na stejnou úlohu může vzrůst. Anthropic to přiznává otevřeně a úvodní cenu nastavil tak, aby byl přechod ze Sonnet 4.6 zhruba nákladově neutrální. Jinými slovy, katalogová cena za token vypadá níž, ale reálná cena za dokončený úkol nemusí klesnout tolik, kolik čísla napovídají. Po skončení úvodní ceny 31. srpna a návratu na 3 a 15 dolarů se efektivní cena za úlohu může vrátit zhruba na úroveň Sonnet 4.6.

Část té zátěže ale uberete cachováním. Platí prompt caching se čtením z cache za desetinu ceny a Batch API nabízí padesátiprocentní slevu. Pro workflow, které opakovaně čtou stejný kontext, jsou cache hity zásadní úspora. Reálnou cenu za úlohu si ale radši změřte na vlastním provozu, neodhadujte ji z ceny za token.

Konkrétní číslo dodává Artificial Analysis. Jedna úloha na jejím Intelligence Indexu vyjde u Sonnetu 5 na 2,29 dolaru, což je zhruba dvojnásobek oproti Sonnetu 4.6 a asi o 15 procent víc než u Opusu 4.8 (1,78 dolaru). Celý ceníkový rozdíl - Sonnet 3 a 15 dolarů proti Opusu 5 a 25 za milion tokenů - spolyká vyšší spotřeba. Sonnet 5 s maximálním úsilím spotřeboval zhruba o 40 procent víc výstupních tokenů než 4.6 a u znalostní práce trojnásobek agentních kol, průměrně 69 tisíc výstupních tokenů na úlohu. Po skončení úvodní slevy (2 a 10 dolarů do 1. září, poté 3 a 15) tak vyjde Sonnet 5 na provoz dráž než Opus. K cache ještě detail: čtení z mezipaměti stojí 0,30 dolaru za milion tokenů, zápis je o 25 procent dražší než běžný vstup a cache drží pět minut.

Migrace ze Sonnet 4.6

Pro vývojáře, kteří přecházejí z předchozí verze, je Sonnet 5 v zásadě drop-in upgrade přes model ID claude-sonnet-5, ale s několika změnami chování API, na které je potřeba si dát pozor. Adaptivní uvažování je nově zapnuté ve výchozím nastavení. Manuální extended thinking, který byl už dříve deprecated, teď vrací chybu 400. Stejně tak nestandardní hodnoty temperature, top_p nebo top_k vracejí chybu 400, takže chování je potřeba řídit přes system prompt. Prefilling asistentovy zprávy vrací chybu 400, stejně jako u 4.6. Anthropic zároveň zvedl rate limity napříč Chat, Cowork, Claude Code i Platform, aby pokryl vyšší spotřebu tokenů u vyšších úrovní úsilí. Sonnet 5 navíc přidal pátou úroveň úsilí xhigh a srovnal se tak s pěti úrovněmi Opusu 4.8 (max, xhigh, high, medium, low).

Bezpečnost

V bezpečnostních testech vyšel Sonnet 5 celkově lépe než Sonnet 4.6. Líp odmítá škodlivé požadavky, odolává prompt injection útokům a má nižší míru halucinací i podlézavosti než předchůdce. Anthropic ale otevřeně přiznává jedno omezení: na automatizovaném auditu chování vykázal Sonnet 5 vyšší míru misaligned chování než schopnější Opus 4.8 a Mythos Preview. Je tedy bezpečnější než svůj předchůdce, ne ale než modely nad ním.

V kyberbezpečnosti je Sonnet 5 záměrně slabý. Anthropic ho na cyber úlohy cíleně netrénoval a na testu vývoje exploitů pro zranitelnosti v prohlížeči Firefox nikdy nedokázal sestavit funkční exploit, skóroval nula procent stejně jako Sonnet 4.6. Přesto ho Anthropic spustil se zapnutými cyber safeguardy ve výchozím nastavení. Ty jsou ale stejné jako u Opus 4.7 a 4.8 a výrazně mírnější než u Fable 5, který blokoval mnohem širší okruh kyberbezpečnostních úloh. Dává to smysl: slabší a méně rizikový model dostane lehčí ochranu než frontier model s reálným uplift potenciálem.

Sonnet 5 jako protiklad frontier dramatu

Načasování Sonnet 5 hodně napoví. Vychází týž den jako čínský LongCat-2.0 a den po preview GPT-5.6, ale je to úplně jiný typ zprávy. Zatímco nahoře se řeší stažení modelů, vládní dohled a hardwarová soběstačnost, Anthropic tiše vydá model, který udělá většinu agentní práce za třetinu ceny Opus a je dostupný okamžitě na všech plánech, jako výchozí pro Free a Pro.

Kontrast s Fable 5 je přímý. Fable byl warp drive pro galaxii, drahý, omezený a nakonec stažený vládou. Sonnet 5 je auto na každý den, dostupné hned a bez podmínek. Po měsíci, kdy se nejsilnější modely staly předmětem exportních direktiv a vládního schvalování, je tohle připomínka, že většina reálné práce se stejně odehrává o patro níž, na modelech, které jsou levné, dostupné a dost dobré. Pro mnoho vývojářů bude Sonnet 5 to, co reálně použijí, zatímco frontier modely zůstanou předmětem titulků.

Co dělat teď a na co si ještě počkat

Sonnet 5 dává smysl nasadit, pokud:

Děláte agentní coding, dlouhé autonomní úlohy nebo běžnou knowledge work a chcete výkon blízko Opus za nižší cenu
Potřebujete model dostupný hned na všech plánech bez čekání
Pracujete s velkými codebase, kde se hodí milion tokenů kontextu

Zvážit Opus 4.8, pokud:

Potřebujete nejvyšší přesnost na nejtěžších úlohách, kde Sonnet 5 zaostává
Děláte kyberbezpečnostní práci vyžadující méně přísné guardraily, kterou Anthropic explicitně směruje na Opus

Co ověřit a pohlídat:

Reálnou cenu za úlohu na vlastním provozu, ne za token, kvůli novému tokenizeru
Náklady po 31. srpnu, kdy končí úvodní cena a vrací se na 3 a 15 dolarů
API změny při migraci z 4.6, zvlášť extended thinking a parametry teploty
Nezávislé benchmarky, které zatím nejsou, čísla pocházejí ze System Cardu Anthropic

Závěr

Claude Sonnet 5 je pragmatické vydání bez frontier ambicí, a právě v tom je jeho síla. Výkonem se blíží Opus 4.8, na agentních benchmarcích výrazně překonává předchůdce a stojí zlomek ceny špičkových modelů. Pro většinu praktické práce, od coding agentů po dlouhé autonomní úlohy, je to rozumná výchozí volba s dobrým poměrem ceny a výkonu.

Dvě výhrady ale zůstávají. Nový tokenizer znamená, že katalogová cena za token podhodnocuje reálnou cenu za úlohu, takže skutečnou úsporu si ověřte měřením, ne z ceníku, a počítejte s koncem úvodní ceny na konci srpna. Nezávislé měření Artificial Analysis tuhle výhradu potvrzuje: levný ceník za token neznamená levný provoz, protože jedna úloha vyjde dráž než na Opusu 4.8. A benchmarky jsou zatím self-report Anthropic ze System Cardu, nezávislé ověření teprve přijde. I s těmito výhradami je Sonnet 5 přesně to, co po měsíci frontier dramat většina vývojářů reálně ocení: dobrý, levný a dostupný model, který je tu hned a bez podmínek.