Iluze levného tokenu: kdo doopravdy drží cenu agentního vývoje

Mezi vývojáři, kteří si zvykli na Claude Code s Opusem, koluje tichá obava. Kvalita je dnes tak vysoká, že nástroj přestal být hračkou a stal se součástí pracovního dne, a s tím se vkrádá myšlenka, že Anthropic dřív nebo později zatáhne za cenovou páku. Je to legitimní obava, ale míří vedle. Otázka, kterou si u agentního vývoje máme klást, nezní, jestli zdraží token. Zní, kdo a jak dlouho bude ochoten platit za to, aby zdražit nemusel. Napovím rovnou, že odpověď se nakonec nebude měřit v penězích za token, ale v něčem, co se ukáže teprve na konci.

Od konverzace k iteraci

Způsob, jak s velkými jazykovými modely pracujeme, se za poslední rok proměnil v základu. Model přestal být chytřejším vyhledávačem, kterému položíte dotaz a dostanete odpověď. Stal se z něj agent, který si přečte repozitář, naplánuje postup, spustí nástroje, přečte chybové výpisy a iteruje, dokud se nedobere výsledku. Jeden lidský pokyn dnes spustí desítky vnitřních kroků, z nichž každý spotřebuje kontext a vyprodukuje další.

Důsledek pro peněženku je paradoxní. Ceníková cena za jeden token soustavně klesá, a klesá rychlostí, jaká nemá v dějinách výpočetní techniky obdoby. Pro model dané schopnosti padá cena řádově desetinásobně ročně. Výkon na úrovni GPT-4 stál koncem roku 2022 kolem dvaceti dolarů za milion tokenů a dnes ho dostanete pod hranicí jednoho dolaru. Přesto účet za vývoj neklesá, naopak roste.

Vysvětlením je zčásti Jevonsův paradox: když jednotka užitku zlevní, otevře to nové, dřív neekonomické způsoby použití, a ty zvednou celkovou spotřebu nad uspořenou cenu. Levný token umožnil pustit agenta na celou kódovou bázi a nechat ho opakovaně pročítat objemné kontexty, což by si při dřívější ceně nikdo nedovolil. Není to ale celé vysvětlení a nemá smysl ho přetěžovat. Velkou část růstu způsobila prostě změna produktu, protože agent řeší větší problémy ve více krocích než konverzační model. Obojí přitom splývá: změna produktu je právě ten nový způsob použití, který levný token zpřístupnil. Výsledek je tak jako tak stejný, za stejné peníze se doručí víc práce a celkový účet stoupá.

Tím se rozpadá veličina, kterou většina debaty plete dohromady. Existují dvě ceny a každá jde jiným směrem. Cena za token klesá. Cena za vyřešený úkol, daná součinem ceny za token a počtu spotřebovaných tokenů, roste, protože ten druhý činitel exploduje. Relevantní metrikou agentního vývoje se stává spotřeba na úkol, a ta je tažená vším, co dělá agenty agenty: víc volání modelu na jeden pokyn, nafouklý kontext, paralelní subagenti a milionová kontextová okna, která šla do běžného provozu na jaře 2026.

Levná cena, kterou někdo dotuje

Než uvěříme, že nízká cena za token je čistě plodem technického pokroku, stojí za to podívat se na účetnictví těch, kdo ji nabízejí. Obrázek je střízlivější.

O ekonomice inference toho zvenčí víme málo a je poctivé to přiznat. Doložená je ztrátovost firem jako celku. Veřejně dostupné odhady mluví o tom, že OpenAI v roce 2024 utratilo o miliardy dolarů víc, než vydělalo. Skutečné náklady na jeden dotaz, marže konkrétních tarifů ani jednotková ekonomika Claude Code ovšem zveřejněné nejsou, takže o nich lze jen usuzovat. Jedna indicie je ale výmluvná. Uživatel, který naplno vytěžuje paušál za dvě stě dolarů měsíčně, spotřebuje v agentním režimu objem inference, jehož hodnota v přepočtu na ceníkové ceny API šplhá k tisícům. I kdyby reálné náklady poskytovatele byly zlomkem té ceny, je nepravděpodobné, že takový tarif u nejtěžších uživatelů vydělává. Ztrátovost inference to samo o sobě nedokazuje, ukazuje ale, že paušál je u části uživatelů hluboce dotovaný, a celé to dává smysl spíš jako boj o podíl na trhu než jako udržitelný byznys.

Analýzy cenového vývoje popisují strukturální zlom, ke kterému došlo zhruba v polovině roku 2024. Do té doby tlačil ceny dolů technický pokrok, tedy lepší čipy, kvantizace a efektivnější obsluha. Ten má přirozený strop daný fyzikou. Po zlomu převzalo otěže konkurenční podbízení, kdy poskytovatelé jdou cenou pod vlastní náklady, aby získali uživatele. A podbízení pod náklady nemá fyzikální strop, má jen strop trpělivosti investorů (nebo snad dno?).

To je první z věcí, které je nutné si přiznat, než začneme stavět predikce. Část dnešní nízké ceny za token není reálná. Je to dotace placená z rizikového kapitálu v sázce na budoucí dominanci. Jakmile se ta sázka přepočítá, levná cena nemá kam jinam jít než nahoru.

Bojiště se přesunulo na efektivitu tokenů

Tady je třeba opravit rozšířenou tezi, že cenu agentního vývoje drží na uzdě open source. Krátkodobě a střednědobě ji drží něco jiného: tvrdá konkurence několika málo uzavřených hráčů. A závodí se v parametru, který ceník vůbec nevidí.

Tím parametrem je efektivita tokenů. Pokud konkurenční agent vyřeší stejný úkol v repozitáři s třetinovou spotřebou kontextu, jeho reálná cena za úkol je zlomková, i kdyby ceníková cena za jeden token byla totožná. Bojiště se přesunulo z ceny za token na spotřebu na úkol, a kdo na tomto poli prohrává, musí to dohánět tím, že rozdá víc kapacity zadarmo.

Přesně to jde vidět na jaře 2026. Reportované údaje hovoří o tom, že OpenAI Codex spotřebovává na srovnatelnou úlohu výrazně méně tokenů než Claude Code. To číslo berme s rezervou, pochází z omezených zdrojů, ale směr je nesporný a reakce ho potvrzuje. Anthropic během několika týdnů opakovaně zvedal dodávanou kapacitu Claude Code, zdvojnásobil hodinové limity, zrušil penalizaci ve špičkách a navýšil týdenní limity o polovinu. Deklarovaným důvodem je infrastruktura. Nabízí se ovšem prozaičtější výklad, totiž zadržení uživatelů, kteří odcházejí ke konkurenci s nižší spotřebou. Motiv nelze zvenčí doložit, ale načasování těch kroků těsně po nástupu efektivnějšího soupeře tomu odpovídá.

Z toho plyne nečekané zjištění. To, co dnes chrání vývojáře před zdražením, není existence otevřených modelů. Je to válka tří uzavřených ekosystémů o jednoho a téhož uživatele. Open source je v této roli teprve záloha. Aktivním policistou ceny je dnes konkurent.

Mezi těmi konkurenty má jeden výsadní postavení a v textu o ekonomice ho nelze přejít. Google. Zatímco menší laboratoře financují cenovou válku z rizikového kapitálu, jehož trpělivost má dno, Google stojí na vlastním křemíku v podobě TPU, na vlastním cloudu, na vlastním modelu a hlavně na cashflow z reklamy, které s cenou inference nesouvisí. Jeho schopnost krvácet v cenové válce není vázaná na náladu investorů, ale na ochotu mateřské firmy dotovat, a ta vydrží řádově déle. Pokud platí, že hladinu drží počet hráčů ochotných krvácet, je Google z nich nejvytrvalejší. Vítěze to z něj předem nedělá, protože náskok v modelu a ve sladěném harnessu se za TPU nekoupí. Dělá to z něj ale aktéra, který umí držet ceny při zemi nejdéle, a tím každému ostatnímu nejvíc komplikuje plán, jak se z dotací jednou dostat do zisku.

Jak se bude zdražovat, až to přijde

Pokud tedy zdražení přijde, jakou bude mít podobu? Skoro jistě ne podobu přepsaného ceníku za token. Bude to utahování limitů u paušálních předplatných.

Tady je nutné jasně oddělit, co pozorujeme, od toho, co předpovídám. Krátkodobý pozorovaný trend jde opačným směrem, než by čekal pesimista. Dokud zuří konkurenční válka, poskytovatelé kapacitu spíš přidávají, jak ukázalo jarní navyšování limitů Claude Code. Predikce, kterou tu stavím, míří až za horizont té války. Jakmile konkurenční tlak poleví nebo dojde dotační dech, bude třeba uvést dotované paušály do souladu s realitou nákladů, a v tu chvíli je pravděpodobnější tichá regulace propustnosti než hlasité přepsání ceníku.

Paušál je pro poskytovatele dvousečná zbraň. Na jedné straně generuje předvídatelný příjem a uzamyká uživatele. Na druhé straně u heavy uživatelů v agentním režimu prodělává, protože spotřebovaná inference násobně převyšuje zaplacený paušál. Řešením není zvednout cenovku, to je viditelné a politicky drahé. Řešením je dynamicky regulovat propustnost. Tvrdší týdenní strop, penalizace ve špičkách, tiché úpravy počítadel.

Že je ta páka v rukou poskytovatele a že ji používá oběma směry, není teorie. Na jaře 2026 Anthropic v jednom období zpřísnil limity ve špičce a připustil, že uživatelé narážejí na stropy rychleji, než se čekalo, a v jiném je naopak navýšil. Cenová struktura je k takovému jemnému řízení marže přímo navržená: stupňovité limity bez garantované úrovně přístupu a u nejnižších tarifů strop závislý na okamžité poptávce.

A pozor na detail, který obvykle zapadne. Když poskytovatel přidá kapacitu jako dočasné promo s datem expirace, není to strukturální sleva, je to defenzivní manévr. Datum, ke kterému štědrost končí, prozrazuje, že pod kapotou je ekonomika napjatá a velkorysost trvá jen tak dlouho, dokud tlačí soupeř.

Pojistka open source a proč v agentním vývoji dorazí pozdě

Vraťme se k otevřeným modelům, protože jejich role je reálná, jen jiná, než se obvykle tvrdí. Open source skutečně tvoří cenový strop. Jakmile existuje otevřený model srovnatelné kvality, který si lze hostovat za cenu výpočtu, nemůže nikdo dlouhodobě účtovat vysokou prémii za tutéž schopnost. Ten strop ale má dvě omezení, která se v agentním vývoji projevují obzvlášť silně.

První je zpoždění, a tady je na místě opatrnost. Otevřené modely doháněly špičku historicky s odstupem zhruba šesti až dvanácti měsíců, ten odstup se ovšem zkracujeím a nelze předpokládat, že zůstane stálý. Může se dál zkracovat, stabilizovat, nebo na některých úlohách zmizet. Doložitelnější než velikost mezery je její nerovnoměrnost. Na kódování a matematice se takřka uzavřela, na agentním hodnocení, tedy na schopnosti spolehlivě vést dlouhou úlohu přes mnoho kroků, zůstává nejodolnější. K tomu se přidává pohyblivý cíl, protože otevřený model chytá špičku z minulosti, takže i kdyby dohnal dnešní Opus, dnešní Opus už nebude tím, podle čeho se trh poměřuje.

Druhým omezením je samotná podstata agentního produktu, a tady leží jádro věci. Produktem pro agentní vývoj není čistý model, je to model plus harness. Tedy nástrojové prostředí, ve kterém model ovládá terminál, čte soubory a iteruje nad chybami. Vertikálně integrovaný hráč trénuje model přímo s ohledem na to prostředí, takže obě vrstvy ladí dohromady. U otevřeného světa se model a harness vyvíjejí odděleně, model z jedné laboratoře, nástroj z jiného projektu. Kvalitní otevřené harnessy existují a běží na otevřených vahách, takže substituce je možná. Dosáhnout té plynulé synergie, kterou nabízí integrovaný produkt, ale vyžaduje čas a specifické ladění, které je v AI právě tím nejnáročnějším. Tato úroveň integrace je nejtrvanlivější náskok uzavřených hráčů, a proto se agentní vývoj komoditizuje nejpomaleji ze všech. A na rozdíl od zpoždění tahle překážka neslábne s tím, jak se mezera v kvalitě modelu zavírá, protože nestojí na kvalitě modelu, ale na tom, že se v otevřeném světě model a harness vyvíjejí každý zvlášť.

A je tu ještě jeden háček, který musíme vzít v úvahu. Nejsilnější otevřené váhy dnes pocházejí z čínských laboratoří. Pro běžného vývojáře to nehraje roli, pro regulovaného nebo státního zákazníka je to ovšem překážka bez ohledu na licenci. Bezpečnostní prověrka dodavatelského řetězce může nasazení modelu čínského původu zakázat i tam, kde je licence svobodná. Otevřená varianta, která je dnes nejlepší na schopnostech, tak může být pro část trhu nepoužitelná na původu, a to právě u zákazníků, kteří governance řeší nejvíc. Cenový strop, který open source slibuje, má pro ně díru.

Závěr: vyhraje nejdelší koherentní horizont

Shrňme střízlivě, kde jsme. Ceníková cena za token bude dál klesat, u otevřených vah dokonce poctivěji než u dotovaných uzavřených tarifů. Váš měsíční účet přesto poroste, protože agentům svěříte čím dál víc práce. Obávané zdražení se nejspíš neprojeví vyšší cenou za token, ale utahováním limitů a koncem dotovaných paušálů. A to utahování dnes brzdí konkurence, ne otevřené modely.

Z toho plyne první polovina odpovědi. Cenovou hladinu agentního vývoje nedrží dole velikost modelu ani existence otevřené alternativy, drží ji počet uzavřených hráčů ochotných krvácet o uživatele. Open source je dlouhodobá pojistka, která zaručí, že strop nepůjde zvrátit donekonečna, ale v agentním vývoji dorazí s nejdelším zpožděním a její účinnost stojí na zralosti otevřených harnessů a na tom, jestli její nejsilnější verze vůbec smíte nasadit.

Tahle odpověď je ale jen poloviční, protože mlčí o tom, podle čeho se ta konkurence vlastně poměřuje. Vraťme se k efektivitě tokenů z prostředku textu a otočme ji. Agent, který vyřeší úkol s menší spotřebou, je tentýž agent, který déle udrží logickou nit, protože většina zbytečně spálených tokenů padne na opravy vlastních omylů poté, co se odchýlil od cíle. Efektivita tokenů a koherence jsou táž veličina viděná ze dvou stran, jednou jako cena, podruhé jako kvalita.

Tu veličinu bych nazval koherentní pracovní horizont. Tedy jak dlouho dokáže agent pracovat na jednom cíli, než ho musíte lidsky resynchronizovat a znovu mu vysvětlit původní záměr. Pokud po osmi hodinách refaktoringu musíte zopakovat, oč od začátku šlo, narazili jste na limit. Je to ovšem limit dané sestavy, ne modelu samotného. Týž model dojede mnohem dál, když stav externalizujete do souborů a podúkoly izolujete do subagentů, než když ho necháte na naivní kompakci kontextu. Horizont je proto zčásti vlastnost toho, jak je váš agent postavený, a právě to z něj dělá pole, na kterém se dá soutěžit.

A tady se cena utrhne. Utrhne ji ten, čí agent vydrží nejdéle koherentní, protože delší horizont znamená míň kol oprav, nižší spotřebu na úkol a tím nižší reálnou cenu za hotovou práci. Koherentní pracovní horizont je tak zároveň metrikou kvality i metrikou ceny. A skutečná soutěž mezi Anthropicem, OpenAI, Googlem a open-weight ekosystémem se odehraje právě o něj.

Proč k té ztrátě nitě dochází, proč ji větší kontextové okno neřeší a co je skutečným příkopem agentní éry, je téma druhého dílu.