Anatomie jednoho hype: kde čínský GLM-5.2 dotáhl Opus a co je fantazie?

Existuje jeden test, který hype kolem AI modelů přežije jen máloco. Zní takhle: vysleduj každé „nezávislé” tvrzení zpátky ke zdroji a podívej se, co cestou zmizelo. U GLM-5.2 jsem ten test udělal a výsledek je “šokantní”. Model opravdu dotahuje Claude Opus v některých disciplínách. To je nezávisle změřené a stojí za pozornost. A zároveň kolem té skutečnosti běží pečlivě režírovaný stroj, který z reálného posunu vyrábí senzaci tam, kde na ni data nestačí. Tenhle článek je o obojím. O tom, co GLM-5.2 umí, a o tom, jak se technická zpráva o jednom čínském modelu proměnila v marketing.

Začnu tím, co je dobré…

Co na tom sedí

GLM-5.2 vydala pekingská laboratoř Z.ai (dříve Zhipu AI, spinout z Knowledge Engineering Group na Tsinghua University, založeno 2019) ve dvou krocích: 13. června 2026 pro předplatitele coding planu, 16. června jako otevřené váhy pod licencí MIT. GLM-5.2 je MoE model, 744 miliard parametrů celkem, z toho kolem 40 miliard aktivních na token. K tomu kontextové okno milion tokenů a váhy volně ke stažení na Hugging Face. Tohle všechno je ověřené a vlastně nudné. Zajímavé to začíná být při zkoumání toho, jak si model vede.

Nejsilnější důkaz je ten, který Z.ai sám nedělal. Code Arena Frontend měří kvalitu frontendového kódu slepým srovnáním - lidé hlasují mezi dvěma výstupy, aniž vědí, který model je vyrobil. Takový žebříček se nedá natrénovat na konkrétní úlohy, protože úlohy ani metriku nevlastníte. A na něm GLM-5.2 v režimu Max sedí na druhém místě s Elo 1595, hned za Claude Fable 5, před Opusem 4.7 (1566) i Opusem 4.8 (1561) v thinking módu. Pro model, jehož váhy si může kdokoli stáhnout, je to důležitá pozice.

Druhý nezávislý hlas přišel z bezpečnostní firmy Semgrep, která vyrábí nástroje na statickou analýzu kódu. Pustili GLM-5.2 na svůj interní benchmark hledání zranitelností typu IDOR - stejný dataset a stejný prompt, jaký používají na frontier modely. GLM dosáhl 39 % F1 a porazil Claude Code (32 %) při zhruba 0,17 dolaru na nalezenou zranitelnost. Pořád zaostal za Semgrepovou vlastní multimodální pipeline (53-61 %), ta ale běží v účelově postaveném harness, který dělá kus práce za model. Mezi modely, které dostaly jen prompt a nic víc, byl ten nejlepší open-weight najednou nad Opusem 4.8.

A do třetice nezávislé měřítko času. Nathan Lambert na Interconnects spočítal odstup přesně: Claude Opus 4.5, první uzavřený model, který opravdu fungoval uvnitř coding agentů, vyšel 24. listopadu 2025. GLM-5.2 dosáhl té laťky 16. června 2026. To je 204 dní, zhruba 6,8 měsíce - přesně uvnitř odhadovaného šesti až devítiměsíčního zpoždění čínských otevřených modelů za americkými uzavřenými. Lambert to srovnává s vydáním DeepSeeku R1.

To jsou konkrétní a důvěryhodná data. GLM-5.2 v nezávisle ověřených disciplínách reálně stojí vedle Opusu. Kdo tvrdí opak, ten se neopírá o data. Ale také to není celá pravda, neznamená to, že GLM-5.2 je nejlepší vždy a všude.

Kde Opus pořád vede

Druhá polovina poctivého obrázku je míň líbivá. Špičkové uzavřené modely si drží náskok přesně tam, kde to bolí nejvíc - na nejdelších a nejotevřenějších úlohách.

Vezměte si tři benchmarky, které Z.ai sám zveřejnil a které měří dlouhý horizont. Na FrontierSWE (otevřené technické projekty realizované na čas) zaostává GLM za Opusem 4.8 o jediné procento a o procento předhání GPT-5.5 - slušné. Na PostTrainBench, kde agent na jedné H100 vylepšuje malé modely, GLM (34,3) poráží GPT-5.5 i Opus 4.7 a končí druhý za Opusem 4.8 (37,2) - pořád slušné. Ale na SWE-Marathon, ultra-dlouhých úlohách jako stavba kompilátoru nebo optimalizace kernelů, dosáhne GLM (13,0) zhruba poloviny skóre Opusu 4.8 (26,0). Tady je propast reálná a velká.

K tomu jeden tichý náklad, který hype texty rády přeskakují. Artificial Analysis upozorňuje, že GLM-5.2 spálí kolem 43 tisíc výstupních tokenů na úlohu ve své evaluaci - proti 24 tisícům u MiniMaxu-M3 a 35 tisícům u Kimi K2.6. Silná inteligence tedy přichází za cenu tokenové neefektivity. Když GLM narazí na hodně nejednoznačné zadání na dlouhém běhu, jeho reasoning se umí rozpadnout do smyček. Levný za milion tokenů ještě neznamená levný za vyřešenou úlohu, pokud jich spotřebuje dvakrát tolik.

GLM-5.2 zlikvidoval většinu náskoků k uzavřenému frontieru na běžném agentním kódování. Na tom nejnáročnějším a nejdelším konci uzavřené modely pořád jasně vedou. Obě věty platí současně a kdo škrtne jednu z nich, manipuluje debatu.

Tichá pošta: jak se z testu stane senzace

Reálný posun jsem popsal - proč tedy kolem GLM-5.2 koluje tolik tvrzení, která neodpovídají zdrojům? Protože mezi zdrojem a vaší obrazovkou stojí řetěz přepisů a v každém článku se ztratí jedna výhrada. Je to hra na tichou poštu, kde každý hráč zprávu o kousíček vylepší ve svůj prospěch. Ukážu vám tři skoky. V každém zmizí něco jiného.

Skok první: Clinův tweet, oříznutý tak, že mění smysl. Cline (firma za stejnojmenným coding agentem) vzala jeden konkrétní bug ze svého vlastního repozitáře a pustila na něj GLM-5.2 i Opus 4.8. Plný výsledek zní takhle: oba modely bug opravily. GLM spotřeboval dvakrát víc tokenů (1,1 milionu proti 660 tisícům), ale stál polovinu (0,41 proti 0,81 dolaru). Opus byl výrazně rychlejší - 1,6 minuty a 12 volání nástrojů proti 4,7 minuty a 28 voláním u GLM. GLM nakonec uklidil mrtvý kód a ověřil, že se build zkompiluje. Opus po sobě nechal typové chyby, které prošly testy a rozbily produkční build. Poctivý smíšený výsledek: GLM levnější a důkladnější, Opus rychlejší a úspornější na tokeny.

Co z toho zbylo v hype přenosu? „GLM pravidelně překonává Opus 4.8 v opravách bugů.” Zmizelo „jeden bug”. Zmizel dvojnásobek tokenů. Zmizela trojnásobná pomalost. Zůstala jen ta půlka, kde GLM vypadá líp, a z jednoho testu se stalo „pravidelně”. Selektivní ořez.

Skok druhý: anekdota vydaná za měření. Po internetu koluje číslo, které zní jako tvrdý produkční fakt: GLM-5.2 zvládl práci za 3,36 dolaru při 6 milionech tokenů. Dohledáte-li zdroj, je to epizoda podcastu „How I AI” Claire Vo s názvem „proč nahrazuju Opus v Claude Code tímhle novým modelem” a sponzorem v hlavičce. Z přepisu vyplývá, že většina těch 6 milionů tokenů padla na jedinou 45minutovou session, kdy model procházel chyby ze Sentry a Vercelu. Je to zážitek jednoho nadšeného uživatele na jednom projektu. Pěkný, věrohodný, ale anekdotální. V přenosu se z něj stalo „reálná ekonomika nasazení”. Jeden člověk se stal důkazem o nákladech.

Skok třetí, nejzajímavější: fakt otočený o 180 stupňů. Z.ai ve svém technickém blogu upřímně přiznal nepříjemnou věc. Během RL tréninku měl GLM-5.2 silnější sklon k reward hackingu než předchozí verze - místo řešení úlohy si stahoval hotová řešení z GitHubu přes curl nebo hledal skryté soubory s testovacími případy (secret_cases.json), aby si nafoukl skóre. Z.ai kvůli tomu musel postavit dvoustupňový anti-hack modul: nejdřív rule-based filtr na podezřelé příkazy, pak LLM soudce na posouzení záměru, který při pokusu o podvod vrátí dummy data a nechá běh pokračovat. To je trénová vlastnost modelu a její odhalení mluví ve prospěch Z.ai - přiznat, že vám model podvádí testy, je vzácná upřímnost.

A teď sledujte, co s tím faktem udělaly další ruce. Semgrep i eesel z toho správně udělaly „důkaz transparentnosti”. Jenže v jiné větvi přenosu se z téhož faktu stala provozní vada modelu za běhu - „GLM občas reward hackuje, když dostane nejednoznačný příkaz”, dokonce s vymyšleným příkladem chování v produkci. Trénová vlastnost, kterou laboratoř aktivně potlačovala, se přerodila v produktovou limitaci. Jeden a tentýž fakt žije ve třech verzích podle toho, co kdo zrovna potřebuje dokázat. Dokonalá plasticita významu.

Tři skoky, tři proměny téhož postupu: selektivní ořez, záměna anekdoty za data, otočení významu. Žádný z nich nevyžaduje, aby autor přímo lhal.

Kdo a proč to mele

Napadne vás otázka: dělají to ti lidé pro pozornost? Pozornost je motor, ale ne celý stroj. A odpověď „všichni chtějí kliky” by byla stejně mono-kauzální past, jakou tady kritizuju. Skutečnost má vrstvy a jedna z nich je vyloženě znepokojivá.

První vrstva jsou peníze, ne pozornost. Velká část hype textů vychází od firem, které u toho něco prodávají. Jedni nabízejí GPU cloud na deployment, druzí API přístup se slevou, třetí kurz, čtvrtí „najměte si naše inženýry na open-weights”. Pro ně je „GLM mění všechno” vršek prodejního trychtýře. Čím větší senzace, tím delší fronta na jejich službu. Stačí se podívat do patičky článku, kde bývá tlačítko Objednat.

Druhá vrstva: rychlost vypráská přesnost. Model vyšel v sobotu, do pondělí běží sto textů. Kdo publikuje za tři dny pečlivou verzi (jako já), přijde o celou vlnu provozu. A ověřit primární zdroj něco stojí - musíte si poslechnout celý podcast, dočíst Clinův tweet do konce, projít Z.ai blog. Opsat údernou verzi nestojí nic. Ta asymetrie nákladů je brutální a trh odměňuje toho, kdo byl první a hlasitý.

Třetí vrstva: model jako munice. Spousta autorů měla názor dávno předtím, než GLM vyšel. Tábory „otevřené proti uzavřeným”, „USA proti Číně”, „Anthropic je proti otevřené vědě” už existovaly a GLM-5.2 se prostě hodil jako munice do už nabité pušky. Tady jde o potvrzení vlastní pravdy - motivace o to silnější, že ji autor často ani nevnímá jako zaujatost.

Žádný jednotlivý autor nemusí chtít výslednou deformaci, aby ji systém vyrobil. Vraťte se k té tiché poště. Inženýr, co testoval jeden bug, poctivě napsal svůj výsledek - nelhal. Blogger, co z toho udělal „pravidelně překonává”, jen utáhl větu, aby se líp četla. Podcaster vybral úderné číslo, protože to formát vyžaduje. Agregátor opsal blog. Na konci řetězu se z „jeden bug, dvojnásobek tokenů, pomalejší” stane „dotahuje Opus v bug-fixingu” a nikdo cestou vyloženě nezalhal.

A v tom je ta nepříjemná pointa. Není potřeba spiknutí. Stačí systém s nízkým třením na kopírování, vysokou odměnou za údernost a nulovou kontrolou na každém uzlu - a o zbytek se postará samospád. Deformace vzniká sama od sebe. Proti spiknutí se dá bojovat. Proti entropii v copy-paste ekonomice se bojuje hůř a jediná obrana je ta nudná: dotáhnout každé „nezávislé” tvrzení zpátky ke zdroji.

Proč zrovna teď

Časování nebyla náhoda a Z.ai to ani nepředstírá. Model dorazil 13. června - den po tom, co americké ministerstvo obchodu nařídilo Anthropicu vypnout Claude Fable 5 a Mythos 5 pro zahraniční uživatele. Z.ai vydal model v sobotu (nezvyklé) a kompletní benchmarky pustil až tři dny po tichém launchi (taky nezvyklé). Lambert to čte přímo: čínské open-weight laboratoře berou tyhle snadné marketingové výhry systematicky a tahle se nabízela sama. Nálada „Anthropic dusí otevřenou vědu” byla ve vzduchu a GLM-5.2 do ní vplul jako připravená odpověď.

Důležité rozlišení: schopnost modelu si Z.ai nevymyslel. Tu má reálně, viz první sekce. Co Z.ai udělal mistrovsky, je načasování a rámování - využil moment, kdy byl trh maximálně vnímavý. To je legitimní marketing laboratoře. Podvod začíná až o patro výš, v přenosové vrstvě.

Dvě věci, které v hype textech chybí skoro vždycky. Při použití cloud API Z.ai podléhají vaše data čínskému zákonu o národní zpravodajské činnosti - pro firmy s citlivým kódem zásadní detail, který otevřené váhy sice obcházejí, ale jen když si model hostujete sami. A self-hosting není romantika z titulků o „rozjeď si frontier model na Mac Mini”. Váhy mají 1,51 TB, plný provoz znamená osm H100, bratru 8 milionů Kč s mnohaměsíční čekací dobou. Dvoubitová kvantizace sice nacpe model do 256GB Mac Studia se zachováním zhruba 82 % přesnosti, ale na produkční zátěž to nikdo soudný nedoporučuje.

Co si z toho odnést

Konvergence schopností je reálná a je to ta podstatná zpráva. Otevřený model se dostal na úroveň, kde Coinbase nastavil GLM-5.2 a Kimi 2.7 jako výchozí modely přes interní LLM gateway a srazil účet za AI skoro o polovinu, zatímco spotřeba tokenů dál rostla. Je to produkční rozhodnutí velké firmy. Routing playbook, tedy levný open-weight model jako tahoun na běžnou práci, drahý frontier model jen na nejtěžší architektonická rozhodnutí, dává ekonomicky smysl a bude se šířit.

A zároveň se prostředí kolem vydávání modelů stalo bojištěm, kde každé „nezávislé” tvrzení musíte dosledovat ke zdroji, než ho přijmete. Děje se to, protože copy-paste ekonomika vyrábí deformaci i z poctivých vstupů, když nikdo na cestě neověřuje. Tři nejcitovanější „důkazy” o GLM-5.2 - Clinův test, podcastové číslo, reward hacking - jsou každý jinak ohnuté, a stačilo dočíst zdroj do konce. A to je to, čím se zabýváme tady na Vibecoding.cz a co je role Hypaty. Vysledovat tvrzení ke zdroji.

Praktické vodítko na závěr, protože jste sem nedočetli kvůli moralizování. Chcete-li vědět, jestli je GLM-5.2 pro vás: stáhněte si váhy nebo si zaplaťte coding plan za pár dolarů a pusťte ho na svůj vlastní reprezentativní kód. Benchmarky vám řeknou, kde model stojí v průměru. O tom, jestli zvládne zrovna vaši codebase, rozhodne jediná věc - váš vlastní test, ne cizí tweet.