GPT-5.5: první model OpenAI zamýšlený primárně pro agenty

OpenAI 23. dubna 2026 vydala GPT-5.5 a nejzajímavější na něm není vyšší skóre v benchmarcích, ale změna pozicování. Předchozí modely OpenAI byly zamýšleni jako chytří chatboti s nástroji. GPT-5.5 je první GPT, který OpenAI explicitně popisuje jako model pro agentní práci: coding, práci v terminálu, dokumenty, tabulky, výzkum, nástroje a delší pracovní smyčky. Nejde tedy o “chatbota s nástroji”, ale o model, který má méně čekat na další pokyn a více dotahovat úlohu.

Data ale ukazují složitější obraz než marketingové oznámení. GPT-5.5 vede některé benchmarky agentní a znalostní práce, ale Claude Opus 4.7 drží kategorie kódování a práce s nástroji a Gemini 3.1 Pro zůstává silný v uvažování a úlohách v prohlížeči. Navíc GPT-5.5 vykazuje podle Artificial Analysis velmi vysokou halucinační míru. To z něj nedělá špatný model, ale model, který se musí používat jinak než klasický chatbot - a který má jiný trade-off než konkurence.

Co “model pro agenty” znamená v praxi

OpenAI v system cardu popisuje několik behaviorálních změn oproti GPT-5.4: model dříve chápe úlohu, klade méně doplňujících otázek, lépe používá nástroje, kontroluje svou práci a pokračuje, dokud není hotovo.

V prostředí typu Codex, kde má model přístup k repozitáři, terminálu a testům, se to projevuje tak, že GPT-5.5 častěji přechází od návrhu k provedení: projde kód, navrhne změny, použije nástroje, spustí testy a opraví regrese. To ale není vlastnost izolovaného modelu - je to kombinace modelu, nástrojového prostředí a systémových instrukcí. V čistém ChatGPT chatu se stejný model chová obyčejněji, tam rozšířené prostředky nástrojového prostředí tak k dispozici nemá.

CodeRabbit nezávislý test ukazuje konkrétní důsledek této orientace. Precision narostla z 27,9 % na 40,6 %, recall ze 58,3 % na 79,2 %. Zároveň GPT-5.5 produkuje kratší, cílenější komentáře místo dlouhých obecných doporučení. Přesně tak se chová model, který si svou práci kontroluje.

Na benchmarcích to vypadá takto:

Benchmark	GPT-5.5 xhigh	Opus 4.7 max	Gemini 3.1 Pro
Terminal-Bench 2.0	82,7 %	69,4 %	68,5 %
GDPval-AA (Elo)	1785	~1755	1314
OSWorld-Verified	78,7 %	78,0 %	—
Expert-SWE (20h úlohy)	73,1 %	—	—
SWE-Bench Pro	58,6 %	64,3 %	54,2 %
Artificial Analysis Intelligence Index	60	57	57

GPT-5.5 vede agentní benchmarky. Opus 4.7 vede single-shot coding úlohy. Rozdíl není náhodný - odpovídá deklarovanému pozicování obou modelů.

Halucinační trade-off: největší slabina GPT-5.5

Nejzajímavější varování nepřichází z coding benchmarků, ale z AA-Omniscience. Artificial Analysis uvádí, že GPT-5.5 xhigh má nejvyšší faktickou přesnost v historii testu (57 %), ale zároveň 86% hallucination rate. Model ví hodně, ale když neví, častěji odpoví místo aby se zastavil.

Pro srovnání:

Model	Hallucination rate (AA-Omniscience)
GPT-5.5 xhigh	86 %
Gemini 3.1 Pro	50 %
Sonnet 4.6	42 %
Opus 4.7 max	36 %

Vysvětlení, které se nabízí, je, že agentní model raději pokračuje než zastaví - zastavit znamená selhat v dokončení úlohy. Ale data tuto hypotézu nepodporují jednoznačně. Opus 4.7 je také označovaný jako agentní model (Auto mode, handles complex long-running tasks), přesto má halucinační rate 36 %. Kimi K2.6 se swarm orchestraci má na BridgeBench Hallucination 78,3 (třetí místo). Vysoká halucinační míra tedy není nutným důsledkem agentní architektury - je to design rozhodnutí OpenAI.

Anthropic u Opus 4.7 zvolil trade-off jinak: model raději přizná neznalost. V agentních benchmarcích to znamená mírnou ztrátu výkonu (Opus 4.7 zaostává na Terminal-Bench o 13 bodů), ale pro faktické Q&A je to zásadní výhoda. OpenAI zvolila opačný trade-off: model raději pokračuje. V agentních smyčkách, kde běží testy a chyby se vrací zpátky, může být tento přístup výhodou. U faktické odpovědi pro koncového uživatele je to problém.

Pro výběr modelu to znamená jediné: GPT-5.5 patří do workflow s tvrdou zpětnou vazbou (testy, lintery, sandbox, code review). Pro výstupy, které jdou přímo uživateli bez kontroly, je riziko reálné.

Ceny

OpenAI poprvé vydala model dražší než Anthropic:

Model	Vstup	Výstup	Blended 3:1
Sonnet 4.6	$3	$15	$6
Opus 4.7	$5	$25	$10
GPT-5.5	$5	$30	$11,25
GPT-5.5 Pro	$30	$180	$67,50

GPT-5.5 je v ceně vstupu na úrovni Opus 4.7, výstup o 20 % dražší. OpenAI uvádí 40% nižší spotřebu tokenů oproti GPT-5.4, Artificial Analysis to nezávisle ověřil a dospěl k net cost +20 % proti GPT-5.4. Zdvojnásobení ceny tedy částečně kompenzuje efektivita, ale net cost stále roste.

Zajímavější je Flex a Batch pricing. Pro asynchronní workflow nabízí OpenAI poloviční sazbu - $2,50 / $15. V této kategorii je GPT-5.5 pětinásobně levnější než Opus 4.7. Anthropic srovnatelný tier nemá.

Pro kontext: DeepSeek V4-Flash stojí $0,14 / $0,28 - 35× levnější vstup, 107× levnější výstup než GPT-5.5. Pro úlohy, kde faktická přesnost není kritická a halucinační tolerance je vysoká, je to jiná kategorie nákladů.

Pro jakou úlohu který model: kandidáti k testu

Místo absolutních verdiktů tabulka, kde uvádím první kandidát k testu a poznámku. Reálná volba vyžaduje test na vlastním datasetu.

Scénář	První kandidát	Poznámka
Terminálové coding workflow	GPT-5.5	Podporuje ho Terminal-Bench 2.0 a Codex pozicování
GitHub issue resolution	Opus 4.7	Podporuje SWE-Bench Pro
Dlouhé agentní smyčky s testy	GPT-5.5	Držení úkolu je deklarovaná silná stránka
Faktická Q&A bez review	Opus 4.7 nebo Gemini 3.1 Pro	Nižší halucinační míra proti GPT-5.5
MCP integrace	Opus 4.7	Podporuje MCP Atlas benchmark
Debugging existujícího kódu	Kimi K2.6	BridgeBench Debugging first place (pre-GPT-5.5)
Bulk async processing	GPT-5.5 Flex nebo V4-Flash	Rozhoduje cena celé úlohy, ne cena za token
Regulované prostředí	Opus 4.7	Halucinace kritické
Long context nad 500K	Opus 4.6	Dokumentovaná MRCR kvalita
Self-host	DeepSeek V4-Pro nebo Kimi K2.6	Vyžaduje ověření licencí a infrastruktury

Vzorec: GPT-5.5 vede agentní scénáře s tvrdou zpětnou vazbou. Opus 4.7 vede spolehlivost a single-shot precision. Čínské modely konkurují v úzkých specializacích za zlomek ceny.

Co to znamená pro trh

Dubnové vydání GPT-5.5 uzavírá sérii šesti frontier modelů za osm dnů: Opus 4.7, Kimi K2.6, Qwen 3.6-Max, MiMo V2.5-Pro, GPT-5.5, DeepSeek V4. Nejhustší období vydání v historii oboru.

Z toho plynou dva závěry. První: vedoucí pozici na frontier leaderboardu si už nikdo nedrží déle než týden. Anthropic vedl od 16. dubna, OpenAI vzala první místo 23. dubna, DeepSeek přinesl open-source alternativu 24. dubna. Monopol na frontier prestiž, který existoval v roce 2025, skončil.

Druhé: pro vývojáře není volba modelu strategické rozhodnutí na rok, ale taktické rozhodnutí na měsíc. Portfolio dvou až tří API klíčů je racionální minimum. Lock-in do jednoho poskytovatele je geopoliticky i kapabilitně neobhájitelný.

Skrytá bitva o infrastrukturu

Rozdíl mezi GPT-5.5 a Opus 4.7 není jen v modelech, ale v rozdílné obchodní pozici obou firem. Anthropic má problém s nedostatkem kapacity. Poptávka po Claude Code a Opus převyšuje kapacitu serverů. Tento týden Anthropic experimentálně testoval omezení přístupu k Claude Code z $20 Claude Pro planu, což vyvolalo odpor komunity a veřejný posměch OpenAI.. Nový tokenizer v Opus 4.7 (1,0-1,35× více tokenů), xhigh jako nový default v Claude Code, cenová reforma enterprise tierů - to všechno jsou strategie monetizace nedostatku.

OpenAI má opačný problém: po letech investic do infrastruktury má nadbytek kapacity a potřebuje ji zaplnit, proto si teď dovoluje velkorysé rozdávání CODEX kreditů, kde za 20 dolarů váš limit nebere konce.

Pro vývojáře to znamená: volba mezi OpenAI a Anthropic dnes není jen volbou modelu, ale volbou business partnera s odlišným kapacitním profilem. OpenAI pravděpodobně nabídne stabilnější cenu a dostupnost. Anthropic pravděpodobně nabídne lepší kvalitu, ale s rostoucí cenou a rizikem omezení přístupu. Oba se budou snažit svou nevýhodu snížit: OpenAI agresivnější nabídkou a zlepšováním, Anthropic spoluprací s Google a Broadcomem na dostatečné kapacitě.

Co dělat teď a čeho se vyvarovat

Udělat:

Pokud máš ChatGPT Plus/Pro, otestovat GPT-5.5 na úlohách, kde Opus 4.7 drhne - dlouhé shell workflow, multi-step research, command-line debugging.
Porovnat výstup s halucinačním rizikem. Pokud výstup jde přímo uživateli bez review, být opatrný.

Sám musím říct, že jsem nový CODEX vyzkoušel a byl jsem překvapený, jak plynule si poradil s těžšími programátorskými úkoly. Kdybych nebyl předpojatý, protože komunikace v CODEXu je prostě jiná, než jsem zvyklý z Claude Code, taková víc programátorská, méně projektová, musel bych ho pochválit.

Kde naopak GPT-5.5 pochválit nemůžu, je čeština. Je kostrbatá, časté je vyšinutí z vazby. Zatímco Opus, když už má problémy, tak v tom, že všude cpe anglické výrazy, i když existují ustálené české, GPT-5.5 je prostě kostrbatý. Proti předchozím modelům v češtině ztrácí.

Počkat:

Na API release GPT-5.5 (datum neznámé).
Na GPT-5.5 Pro v API.
Na nezávislé benchmarky včetně BridgeBench pro GPT-5.5.

Nedělat:

Migrovat celý workflow na GPT-5.5 na základě launch-day dat.
Očekávat, že GPT-5.5 je “lepší Claude”. Je to jiný produkt pro jiné úlohy.
Spoléhat na “Intelligence Index leadership” jako kritérium. Rozdíl tří bodů je v šumu a mění se každé dva až čtyři týdny.

GPT-5.5 nemění odpověď na otázku “který model je nejlepší”, protože ta otázka v roce 2026 už nedává smysl. Mění ale otázku “které modely musím mít v portfoliu” - agentní model OpenAI je nová kategorie, kterou nelze obejít, i když má svá omezení. Pro vývojáře postavené na Claude Code nebo Cursor workflow, kteří dnes zvažují přidání OpenAI klíče do svého stacku, je odpověď jasná: ano, ale počkejte na API.