OpenAI 23. dubna 2026 vydala GPT-5.5 a nejzajímavější na něm není vyšší skóre v benchmarcích, ale změna pozicování. Předchozí modely OpenAI byly zamýšleni jako chytří chatboti s nástroji. GPT-5.5 je první GPT, který OpenAI explicitně popisuje jako model pro agentní práci: coding, práci v terminálu, dokumenty, tabulky, výzkum, nástroje a delší pracovní smyčky. Nejde tedy o “chatbota s nástroji”, ale o model, který má méně čekat na další pokyn a více dotahovat úlohu.
Data ale ukazují složitější obraz než marketingové oznámení. GPT-5.5 vede některé benchmarky agentní a znalostní práce, ale Claude Opus 4.7 drží kategorie kódování a práce s nástroji a Gemini 3.1 Pro zůstává silný v uvažování a úlohách v prohlížeči. Navíc GPT-5.5 vykazuje podle Artificial Analysis velmi vysokou halucinační míru. To z něj nedělá špatný model, ale model, který se musí používat jinak než klasický chatbot - a který má jiný trade-off než konkurence.
Co “model pro agenty” znamená v praxi
OpenAI v system cardu popisuje několik behaviorálních změn oproti GPT-5.4: model dříve chápe úlohu, klade méně doplňujících otázek, lépe používá nástroje, kontroluje svou práci a pokračuje, dokud není hotovo.
V prostředí typu Codex, kde má model přístup k repozitáři, terminálu a testům, se to projevuje tak, že GPT-5.5 častěji přechází od návrhu k provedení: projde kód, navrhne změny, použije nástroje, spustí testy a opraví regrese. To ale není vlastnost izolovaného modelu - je to kombinace modelu, nástrojového prostředí a systémových instrukcí. V čistém ChatGPT chatu se stejný model chová obyčejněji, tam rozšířené prostředky nástrojového prostředí tak k dispozici nemá.
CodeRabbit nezávislý test ukazuje konkrétní důsledek této orientace. Precision narostla z 27,9 % na 40,6 %, recall ze 58,3 % na 79,2 %. Zároveň GPT-5.5 produkuje kratší, cílenější komentáře místo dlouhých obecných doporučení. Přesně tak se chová model, který si svou práci kontroluje.
Na benchmarcích to vypadá takto:
| Benchmark | GPT-5.5 xhigh | Opus 4.7 max | Gemini 3.1 Pro |
|---|---|---|---|
| Terminal-Bench 2.0 | 82,7 % | 69,4 % | 68,5 % |
| GDPval-AA (Elo) | 1785 | ~1755 | 1314 |
| OSWorld-Verified | 78,7 % | 78,0 % | — |
| Expert-SWE (20h úlohy) | 73,1 % | — | — |
| SWE-Bench Pro | 58,6 % | 64,3 % | 54,2 % |
| Artificial Analysis Intelligence Index | 60 | 57 | 57 |
GPT-5.5 vede agentní benchmarky. Opus 4.7 vede single-shot coding úlohy. Rozdíl není náhodný - odpovídá deklarovanému pozicování obou modelů.
Halucinační trade-off: největší slabina GPT-5.5
Nejzajímavější varování nepřichází z coding benchmarků, ale z AA-Omniscience. Artificial Analysis uvádí, že GPT-5.5 xhigh má nejvyšší faktickou přesnost v historii testu (57 %), ale zároveň 86% hallucination rate. Model ví hodně, ale když neví, častěji odpoví místo aby se zastavil.
Pro srovnání:
| Model | Hallucination rate (AA-Omniscience) |
|---|---|
| GPT-5.5 xhigh | 86 % |
| Gemini 3.1 Pro | 50 % |
| Sonnet 4.6 | 42 % |
| Opus 4.7 max | 36 % |
Vysvětlení, které se nabízí, je, že agentní model raději pokračuje než zastaví - zastavit znamená selhat v dokončení úlohy. Ale data tuto hypotézu nepodporují jednoznačně. Opus 4.7 je také označovaný jako agentní model (Auto mode, handles complex long-running tasks), přesto má halucinační rate 36 %. Kimi K2.6 se swarm orchestraci má na BridgeBench Hallucination 78,3 (třetí místo). Vysoká halucinační míra tedy není nutným důsledkem agentní architektury - je to design rozhodnutí OpenAI.
Anthropic u Opus 4.7 zvolil trade-off jinak: model raději přizná neznalost. V agentních benchmarcích to znamená mírnou ztrátu výkonu (Opus 4.7 zaostává na Terminal-Bench o 13 bodů), ale pro faktické Q&A je to zásadní výhoda. OpenAI zvolila opačný trade-off: model raději pokračuje. V agentních smyčkách, kde běží testy a chyby se vrací zpátky, může být tento přístup výhodou. U faktické odpovědi pro koncového uživatele je to problém.
Pro výběr modelu to znamená jediné: GPT-5.5 patří do workflow s tvrdou zpětnou vazbou (testy, lintery, sandbox, code review). Pro výstupy, které jdou přímo uživateli bez kontroly, je riziko reálné.
Ceny
OpenAI poprvé vydala model dražší než Anthropic:
| Model | Vstup | Výstup | Blended 3:1 |
|---|---|---|---|
| Sonnet 4.6 | $3 | $15 | $6 |
| Opus 4.7 | $5 | $25 | $10 |
| GPT-5.5 | $5 | $30 | $11,25 |
| GPT-5.5 Pro | $30 | $180 | $67,50 |
GPT-5.5 je v ceně vstupu na úrovni Opus 4.7, výstup o 20 % dražší. OpenAI uvádí 40% nižší spotřebu tokenů oproti GPT-5.4, Artificial Analysis to nezávisle ověřil a dospěl k net cost +20 % proti GPT-5.4. Zdvojnásobení ceny tedy částečně kompenzuje efektivita, ale net cost stále roste.
Zajímavější je Flex a Batch pricing. Pro asynchronní workflow nabízí OpenAI poloviční sazbu - $2,50 / $15. V této kategorii je GPT-5.5 pětinásobně levnější než Opus 4.7. Anthropic srovnatelný tier nemá.
Pro kontext: DeepSeek V4-Flash stojí $0,14 / $0,28 - 35× levnější vstup, 107× levnější výstup než GPT-5.5. Pro úlohy, kde faktická přesnost není kritická a halucinační tolerance je vysoká, je to jiná kategorie nákladů.
Pro jakou úlohu který model: kandidáti k testu
Místo absolutních verdiktů tabulka, kde uvádím první kandidát k testu a poznámku. Reálná volba vyžaduje test na vlastním datasetu.
| Scénář | První kandidát | Poznámka |
|---|---|---|
| Terminálové coding workflow | GPT-5.5 | Podporuje ho Terminal-Bench 2.0 a Codex pozicování |
| GitHub issue resolution | Opus 4.7 | Podporuje SWE-Bench Pro |
| Dlouhé agentní smyčky s testy | GPT-5.5 | Držení úkolu je deklarovaná silná stránka |
| Faktická Q&A bez review | Opus 4.7 nebo Gemini 3.1 Pro | Nižší halucinační míra proti GPT-5.5 |
| MCP integrace | Opus 4.7 | Podporuje MCP Atlas benchmark |
| Debugging existujícího kódu | Kimi K2.6 | BridgeBench Debugging first place (pre-GPT-5.5) |
| Bulk async processing | GPT-5.5 Flex nebo V4-Flash | Rozhoduje cena celé úlohy, ne cena za token |
| Regulované prostředí | Opus 4.7 | Halucinace kritické |
| Long context nad 500K | Opus 4.6 | Dokumentovaná MRCR kvalita |
| Self-host | DeepSeek V4-Pro nebo Kimi K2.6 | Vyžaduje ověření licencí a infrastruktury |
Vzorec: GPT-5.5 vede agentní scénáře s tvrdou zpětnou vazbou. Opus 4.7 vede spolehlivost a single-shot precision. Čínské modely konkurují v úzkých specializacích za zlomek ceny.
Co to znamená pro trh
Dubnové vydání GPT-5.5 uzavírá sérii šesti frontier modelů za osm dnů: Opus 4.7, Kimi K2.6, Qwen 3.6-Max, MiMo V2.5-Pro, GPT-5.5, DeepSeek V4. Nejhustší období vydání v historii oboru.
Z toho plynou dva závěry. První: vedoucí pozici na frontier leaderboardu si už nikdo nedrží déle než týden. Anthropic vedl od 16. dubna, OpenAI vzala první místo 23. dubna, DeepSeek přinesl open-source alternativu 24. dubna. Monopol na frontier prestiž, který existoval v roce 2025, skončil.
Druhé: pro vývojáře není volba modelu strategické rozhodnutí na rok, ale taktické rozhodnutí na měsíc. Portfolio dvou až tří API klíčů je racionální minimum. Lock-in do jednoho poskytovatele je geopoliticky i kapabilitně neobhájitelný.
Skrytá bitva o infrastrukturu
Rozdíl mezi GPT-5.5 a Opus 4.7 není jen v modelech, ale v rozdílné obchodní pozici obou firem. Anthropic má problém s nedostatkem kapacity. Poptávka po Claude Code a Opus převyšuje kapacitu serverů. Tento týden Anthropic experimentálně testoval omezení přístupu k Claude Code z $20 Claude Pro planu, což vyvolalo odpor komunity a veřejný posměch OpenAI.. Nový tokenizer v Opus 4.7 (1,0-1,35× více tokenů), xhigh jako nový default v Claude Code, cenová reforma enterprise tierů - to všechno jsou strategie monetizace nedostatku.
OpenAI má opačný problém: po letech investic do infrastruktury má nadbytek kapacity a potřebuje ji zaplnit, proto si teď dovoluje velkorysé rozdávání CODEX kreditů, kde za 20 dolarů váš limit nebere konce.
Pro vývojáře to znamená: volba mezi OpenAI a Anthropic dnes není jen volbou modelu, ale volbou business partnera s odlišným kapacitním profilem. OpenAI pravděpodobně nabídne stabilnější cenu a dostupnost. Anthropic pravděpodobně nabídne lepší kvalitu, ale s rostoucí cenou a rizikem omezení přístupu. Oba se budou snažit svou nevýhodu snížit: OpenAI agresivnější nabídkou a zlepšováním, Anthropic spoluprací s Google a Broadcomem na dostatečné kapacitě.
Co dělat teď a čeho se vyvarovat
Udělat:
- Pokud máš ChatGPT Plus/Pro, otestovat GPT-5.5 na úlohách, kde Opus 4.7 drhne - dlouhé shell workflow, multi-step research, command-line debugging.
- Porovnat výstup s halucinačním rizikem. Pokud výstup jde přímo uživateli bez review, být opatrný.
Sám musím říct, že jsem nový CODEX vyzkoušel a byl jsem překvapený, jak plynule si poradil s těžšími programátorskými úkoly. Kdybych nebyl předpojatý, protože komunikace v CODEXu je prostě jiná, než jsem zvyklý z Claude Code, taková víc programátorská, méně projektová, musel bych ho pochválit.
Kde naopak GPT-5.5 pochválit nemůžu, je čeština. Je kostrbatá, časté je vyšinutí z vazby. Zatímco Opus, když už má problémy, tak v tom, že všude cpe anglické výrazy, i když existují ustálené české, GPT-5.5 je prostě kostrbatý. Proti předchozím modelům v češtině ztrácí.
Počkat:
- Na API release GPT-5.5 (datum neznámé).
- Na GPT-5.5 Pro v API.
- Na nezávislé benchmarky včetně BridgeBench pro GPT-5.5.
Nedělat:
- Migrovat celý workflow na GPT-5.5 na základě launch-day dat.
- Očekávat, že GPT-5.5 je “lepší Claude”. Je to jiný produkt pro jiné úlohy.
- Spoléhat na “Intelligence Index leadership” jako kritérium. Rozdíl tří bodů je v šumu a mění se každé dva až čtyři týdny.
GPT-5.5 nemění odpověď na otázku “který model je nejlepší”, protože ta otázka v roce 2026 už nedává smysl. Mění ale otázku “které modely musím mít v portfoliu” - agentní model OpenAI je nová kategorie, kterou nelze obejít, i když má svá omezení. Pro vývojáře postavené na Claude Code nebo Cursor workflow, kteří dnes zvažují přidání OpenAI klíče do svého stacku, je odpověď jasná: ano, ale počkejte na API.