Strategic Analysis Patrick Zandl

GPT-5.5: první model OpenAI zamýšlený primárně pro agenty

OpenAI 23. dubna 2026 vydala GPT-5.5 a nejzajímavější na něm není vyšší skóre v benchmarcích, ale **změna pozicování**. Předchozí modely OpenAI byly zamýšleni jako chytří chatboti s nástroji. GPT-5.5 je první GPT, který OpenAI explicitně popisuje jako model pro agentní práci.

Modely: GPT-5.5Opus 4.7

OpenAI 23. dubna 2026 vydala GPT-5.5 a nejzajímavější na něm není vyšší skóre v benchmarcích, ale změna pozicování. Předchozí modely OpenAI byly zamýšleni jako chytří chatboti s nástroji. GPT-5.5 je první GPT, který OpenAI explicitně popisuje jako model pro agentní práci: coding, práci v terminálu, dokumenty, tabulky, výzkum, nástroje a delší pracovní smyčky. Nejde tedy o “chatbota s nástroji”, ale o model, který má méně čekat na další pokyn a více dotahovat úlohu.

Data ale ukazují složitější obraz než marketingové oznámení. GPT-5.5 vede některé benchmarky agentní a znalostní práce, ale Claude Opus 4.7 drží kategorie kódování a práce s nástroji a Gemini 3.1 Pro zůstává silný v uvažování a úlohách v prohlížeči. Navíc GPT-5.5 vykazuje podle Artificial Analysis velmi vysokou halucinační míru. To z něj nedělá špatný model, ale model, který se musí používat jinak než klasický chatbot - a který má jiný trade-off než konkurence.

Co “model pro agenty” znamená v praxi

OpenAI v system cardu popisuje několik behaviorálních změn oproti GPT-5.4: model dříve chápe úlohu, klade méně doplňujících otázek, lépe používá nástroje, kontroluje svou práci a pokračuje, dokud není hotovo.

V prostředí typu Codex, kde má model přístup k repozitáři, terminálu a testům, se to projevuje tak, že GPT-5.5 častěji přechází od návrhu k provedení: projde kód, navrhne změny, použije nástroje, spustí testy a opraví regrese. To ale není vlastnost izolovaného modelu - je to kombinace modelu, nástrojového prostředí a systémových instrukcí. V čistém ChatGPT chatu se stejný model chová obyčejněji, tam rozšířené prostředky nástrojového prostředí tak k dispozici nemá.

CodeRabbit nezávislý test ukazuje konkrétní důsledek této orientace. Precision narostla z 27,9 % na 40,6 %, recall ze 58,3 % na 79,2 %. Zároveň GPT-5.5 produkuje kratší, cílenější komentáře místo dlouhých obecných doporučení. Přesně tak se chová model, který si svou práci kontroluje.

Na benchmarcích to vypadá takto:

BenchmarkGPT-5.5 xhighOpus 4.7 maxGemini 3.1 Pro
Terminal-Bench 2.082,7 %69,4 %68,5 %
GDPval-AA (Elo)1785~17551314
OSWorld-Verified78,7 %78,0 %
Expert-SWE (20h úlohy)73,1 %
SWE-Bench Pro58,6 %64,3 %54,2 %
Artificial Analysis Intelligence Index605757

GPT-5.5 vede agentní benchmarky. Opus 4.7 vede single-shot coding úlohy. Rozdíl není náhodný - odpovídá deklarovanému pozicování obou modelů.

Halucinační trade-off: největší slabina GPT-5.5

Nejzajímavější varování nepřichází z coding benchmarků, ale z AA-Omniscience. Artificial Analysis uvádí, že GPT-5.5 xhigh má nejvyšší faktickou přesnost v historii testu (57 %), ale zároveň 86% hallucination rate. Model ví hodně, ale když neví, častěji odpoví místo aby se zastavil.

Pro srovnání:

ModelHallucination rate (AA-Omniscience)
GPT-5.5 xhigh86 %
Gemini 3.1 Pro50 %
Sonnet 4.642 %
Opus 4.7 max36 %

Vysvětlení, které se nabízí, je, že agentní model raději pokračuje než zastaví - zastavit znamená selhat v dokončení úlohy. Ale data tuto hypotézu nepodporují jednoznačně. Opus 4.7 je také označovaný jako agentní model (Auto mode, handles complex long-running tasks), přesto má halucinační rate 36 %. Kimi K2.6 se swarm orchestraci má na BridgeBench Hallucination 78,3 (třetí místo). Vysoká halucinační míra tedy není nutným důsledkem agentní architektury - je to design rozhodnutí OpenAI.

Anthropic u Opus 4.7 zvolil trade-off jinak: model raději přizná neznalost. V agentních benchmarcích to znamená mírnou ztrátu výkonu (Opus 4.7 zaostává na Terminal-Bench o 13 bodů), ale pro faktické Q&A je to zásadní výhoda. OpenAI zvolila opačný trade-off: model raději pokračuje. V agentních smyčkách, kde běží testy a chyby se vrací zpátky, může být tento přístup výhodou. U faktické odpovědi pro koncového uživatele je to problém.

Pro výběr modelu to znamená jediné: GPT-5.5 patří do workflow s tvrdou zpětnou vazbou (testy, lintery, sandbox, code review). Pro výstupy, které jdou přímo uživateli bez kontroly, je riziko reálné.

Ceny

OpenAI poprvé vydala model dražší než Anthropic:

ModelVstupVýstupBlended 3:1
Sonnet 4.6$3$15$6
Opus 4.7$5$25$10
GPT-5.5$5$30$11,25
GPT-5.5 Pro$30$180$67,50

GPT-5.5 je v ceně vstupu na úrovni Opus 4.7, výstup o 20 % dražší. OpenAI uvádí 40% nižší spotřebu tokenů oproti GPT-5.4, Artificial Analysis to nezávisle ověřil a dospěl k net cost +20 % proti GPT-5.4. Zdvojnásobení ceny tedy částečně kompenzuje efektivita, ale net cost stále roste.

Zajímavější je Flex a Batch pricing. Pro asynchronní workflow nabízí OpenAI poloviční sazbu - $2,50 / $15. V této kategorii je GPT-5.5 pětinásobně levnější než Opus 4.7. Anthropic srovnatelný tier nemá.

Pro kontext: DeepSeek V4-Flash stojí $0,14 / $0,28 - 35× levnější vstup, 107× levnější výstup než GPT-5.5. Pro úlohy, kde faktická přesnost není kritická a halucinační tolerance je vysoká, je to jiná kategorie nákladů.

Pro jakou úlohu který model: kandidáti k testu

Místo absolutních verdiktů tabulka, kde uvádím první kandidát k testu a poznámku. Reálná volba vyžaduje test na vlastním datasetu.

ScénářPrvní kandidátPoznámka
Terminálové coding workflowGPT-5.5Podporuje ho Terminal-Bench 2.0 a Codex pozicování
GitHub issue resolutionOpus 4.7Podporuje SWE-Bench Pro
Dlouhé agentní smyčky s testyGPT-5.5Držení úkolu je deklarovaná silná stránka
Faktická Q&A bez reviewOpus 4.7 nebo Gemini 3.1 ProNižší halucinační míra proti GPT-5.5
MCP integraceOpus 4.7Podporuje MCP Atlas benchmark
Debugging existujícího kóduKimi K2.6BridgeBench Debugging first place (pre-GPT-5.5)
Bulk async processingGPT-5.5 Flex nebo V4-FlashRozhoduje cena celé úlohy, ne cena za token
Regulované prostředíOpus 4.7Halucinace kritické
Long context nad 500KOpus 4.6Dokumentovaná MRCR kvalita
Self-hostDeepSeek V4-Pro nebo Kimi K2.6Vyžaduje ověření licencí a infrastruktury

Vzorec: GPT-5.5 vede agentní scénáře s tvrdou zpětnou vazbou. Opus 4.7 vede spolehlivost a single-shot precision. Čínské modely konkurují v úzkých specializacích za zlomek ceny.

Co to znamená pro trh

Dubnové vydání GPT-5.5 uzavírá sérii šesti frontier modelů za osm dnů: Opus 4.7, Kimi K2.6, Qwen 3.6-Max, MiMo V2.5-Pro, GPT-5.5, DeepSeek V4. Nejhustší období vydání v historii oboru.

Z toho plynou dva závěry. První: vedoucí pozici na frontier leaderboardu si už nikdo nedrží déle než týden. Anthropic vedl od 16. dubna, OpenAI vzala první místo 23. dubna, DeepSeek přinesl open-source alternativu 24. dubna. Monopol na frontier prestiž, který existoval v roce 2025, skončil.

Druhé: pro vývojáře není volba modelu strategické rozhodnutí na rok, ale taktické rozhodnutí na měsíc. Portfolio dvou až tří API klíčů je racionální minimum. Lock-in do jednoho poskytovatele je geopoliticky i kapabilitně neobhájitelný.

Skrytá bitva o infrastrukturu

Rozdíl mezi GPT-5.5 a Opus 4.7 není jen v modelech, ale v rozdílné obchodní pozici obou firem. Anthropic má problém s nedostatkem kapacity. Poptávka po Claude Code a Opus převyšuje kapacitu serverů. Tento týden Anthropic experimentálně testoval omezení přístupu k Claude Code z $20 Claude Pro planu, což vyvolalo odpor komunity a veřejný posměch OpenAI.. Nový tokenizer v Opus 4.7 (1,0-1,35× více tokenů), xhigh jako nový default v Claude Code, cenová reforma enterprise tierů - to všechno jsou strategie monetizace nedostatku.

OpenAI má opačný problém: po letech investic do infrastruktury má nadbytek kapacity a potřebuje ji zaplnit, proto si teď dovoluje velkorysé rozdávání CODEX kreditů, kde za 20 dolarů váš limit nebere konce.

Pro vývojáře to znamená: volba mezi OpenAI a Anthropic dnes není jen volbou modelu, ale volbou business partnera s odlišným kapacitním profilem. OpenAI pravděpodobně nabídne stabilnější cenu a dostupnost. Anthropic pravděpodobně nabídne lepší kvalitu, ale s rostoucí cenou a rizikem omezení přístupu. Oba se budou snažit svou nevýhodu snížit: OpenAI agresivnější nabídkou a zlepšováním, Anthropic spoluprací s Google a Broadcomem na dostatečné kapacitě.

Co dělat teď a čeho se vyvarovat

Udělat:

  1. Pokud máš ChatGPT Plus/Pro, otestovat GPT-5.5 na úlohách, kde Opus 4.7 drhne - dlouhé shell workflow, multi-step research, command-line debugging.
  2. Porovnat výstup s halucinačním rizikem. Pokud výstup jde přímo uživateli bez review, být opatrný.

Sám musím říct, že jsem nový CODEX vyzkoušel a byl jsem překvapený, jak plynule si poradil s těžšími programátorskými úkoly. Kdybych nebyl předpojatý, protože komunikace v CODEXu je prostě jiná, než jsem zvyklý z Claude Code, taková víc programátorská, méně projektová, musel bych ho pochválit.

Kde naopak GPT-5.5 pochválit nemůžu, je čeština. Je kostrbatá, časté je vyšinutí z vazby. Zatímco Opus, když už má problémy, tak v tom, že všude cpe anglické výrazy, i když existují ustálené české, GPT-5.5 je prostě kostrbatý. Proti předchozím modelům v češtině ztrácí.

Počkat:

  1. Na API release GPT-5.5 (datum neznámé).
  2. Na GPT-5.5 Pro v API.
  3. Na nezávislé benchmarky včetně BridgeBench pro GPT-5.5.

Nedělat:

  1. Migrovat celý workflow na GPT-5.5 na základě launch-day dat.
  2. Očekávat, že GPT-5.5 je “lepší Claude”. Je to jiný produkt pro jiné úlohy.
  3. Spoléhat na “Intelligence Index leadership” jako kritérium. Rozdíl tří bodů je v šumu a mění se každé dva až čtyři týdny.

GPT-5.5 nemění odpověď na otázku “který model je nejlepší”, protože ta otázka v roce 2026 už nedává smysl. Mění ale otázku “které modely musím mít v portfoliu” - agentní model OpenAI je nová kategorie, kterou nelze obejít, i když má svá omezení. Pro vývojáře postavené na Claude Code nebo Cursor workflow, kteří dnes zvažují přidání OpenAI klíče do svého stacku, je odpověď jasná: ano, ale počkejte na API.