Kimi K2.6: model otevřených vah, který mění otázku, jak vybírat mezi AI modely

Čínská společnost Moonshot AI vydala model Kimi K2.6, jen čtyři dny po Anthropic Opus 4.7. Ne náhodou právě teď. Moonshot využila pozornost zaměřenou na nové modely a představila LLM, který útočí přímo na pozici Antrhopicu. Cenou, otevřenými vahami, nativní orchestrací hejn agentů a výkonem v agentních úlohách.

Na benchmarcích čistého generování kódu K2.6 za Opus 4.7 mírně zaostává. V agentních benchmarcích s nástroji se K2.6 pohybuje na úrovni Opus 4.7 a porazí GPT-5.4 i Gemini 3.1 Pro. A na nezávislém BridgeBench Debugging je od 20. dubna na prvním místě před oběma generacemi Opus.

Hlavní teze tohoto článku není, že K2.6 je lepší než Opus 4.7. Je to, že K2.6 mění způsob, jakým se má otázka správně ptát. Místo “který model je nejlepší” nebo “který model to zvládne” teď má smysl se ptát “který model stačí pro konkrétní úlohu za jakou cenu, s jakou kontrolou a s jakým rizikem”. A odpověď na tuto otázku pro velký rozsah reálných vývojářských workflow není Opus 4.7.

Co Kimi K2.6 je a co není

Technické parametry jsou přehledné. Architektura: Mixture-of-Experts s celkem 1 bilionem parametrů, z nichž je v každém tokenu aktivních 32 miliard. Celkem 384 expertů, 8 aktivovaných na token. Attention mechanismus: MLA (Multi-head Latent Attention) pro efektivní komprimaci KV cache. Kontextové okno: 262 144 tokenů (obvykle uváděno jako 256K). Multimodalita: text, obraz, video přes MoonViT encoder (400 milionů parametrů). Kvantizace: native INT4 post-training, tedy dvojnásobná inferenční rychlost při minimální ztrátě kvality. Licence: Modified MIT s jednou podmínkou - firmy nad 100 milionů měsíčních uživatelů nebo 20 milionů USD měsíčních tržeb musí ve svých produktech zobrazovat “Kimi” branding.

Cena API u Moonshota: 0,60 USD za milion vstupních tokenů, 3,00 USD za milion výstupních tokenů. Při použití automatického cachingu (podle vendor specifikace 75-83 % úspora na cached tokenech) je reálná provozní cena ještě nižší. Model je dostupný přes platform.moonshot.ai, přes třetí strany jako Fireworks, Novita, Baseten a Ollama Cloud, a můžete jej provozovat i na vlastním hardware (patřičně mastném ovšem, ale můžete!) s Hugging Face váhami.

Co K2.6 explicitně není: Moonshot ani nezávislí recenzenti netvrdí, že je univerzálně nejlepším modelem. Tvrzení je vyhraněnější a přesnější: je to nejlepší open-weights model pro agentní coding v aktuální generaci, první open model ve své třídě, který na nezávislých benchmarcích poráží uzavřené komerční modely.

Před dalším čtení důležité upozornění: většina benchmarkových čísel publikovaných k vydání K2.6 jsou měření od samotné firmy Moonshot. Nezávislá verifikace je rozběhnutá, ale neúplná. BridgeBench K2.6 již otestoval a publikuje data. Artificial Analysis má pro K2.6 vytvořenou stránku, ale Intelligence Index zatím nevyplněn - plná evaluace se spustí v následujících dnech. Oficiální SWE-Bench leaderboard K2.6 ještě nezobrazuje.

Benchmarky: kde K2.6 vede, kde zaostává

Přehled nejdůležitějších čísel ve srovnání s aktuálním frontier:

Benchmark	Kimi K2.6	Opus 4.7	GPT-5.4	Gemini 3.1 Pro	GLM-5.1
SWE-Bench Pro	58,6 %	64,3 %	57,7 %	54,2 %	58,4 %
SWE-Bench Verified	80,2 %	87,6 %	—	80,6 %	—
Terminal-Bench 2.0	66,7 %	69,4 %	75,1 %	68,5 %	—
LiveCodeBench v6	89,6 %	—	—	—	—
HLE-Full (s nástroji)	54,0 %	54,7 %	52,1 %	51,4 %	—
BrowseComp	83,2 %	79,3 %	89,3 %	85,9 %	—
DeepSearchQA (F1)	92,5 %	—	78,6 %	—	—
MMMU-Pro (multimodal)	79,5 %	—	—	—	—

Na čistě kódovacích benchmarcích (SWE-Bench Pro, Verified, Terminal-Bench) Opus 4.7 vede o 5 až 6 procentních bodů. Tohle je reálná mezera. Anthropic s Opus 4.7 dodává o něco lepší model pro izolované úkoly typu “opravu bug”, “implementuj funkci”, “zrefaktoruj třídu”.

Na agentních benchmarcích s nástroji se situace obrací. HLE-Full s nástroji (Humanity’s Last Exam, nejtěžší známý agentní reasoning benchmark) K2.6 vyhrává s 54,0 % nad Opus 4.7 (54,7 %), GPT-5.4 (52,1 %) a Gemini 3.1 Pro (51,4 %) - pozn. Opus 4.7 je zde technicky o 0,7 bodu výš, takže “vede” je spíše přehánění, takovýto rozdíl je v šumu metodologie. Pro DeepSearchQA je to převaha razantní: 92,5 % F1 skóre vs 78,6 % GPT-5.4 (rozdíl 14 procentních bodů).

Nejzajímavější nezávislé měření pochází z BridgeBench Debugging, leaderboardu aktualizovaného 20. dubna 2026. Top 5:

Kimi K2.6 - 87,4 bodu
Claude Opus 4.6 - 87,0
Claude Sonnet 4.6 - 86,6
Grok 4.20 (non-reasoning) - 86,3
Claude Opus 4.7 - 86,2

K2.6 je zde na prvním místě před oběma generacemi Opus. A co je pro technického čtenáře ještě důležitější: Opus 4.7 je ve vývojařině regrese oproti Opus 4.6 (86,2 vs 87,0). Anthropic prodává 4.7 jako vylepšení v kódování, ale praktický indikátor reálné kodérské práce - schopnost najít a opravit chybu v existujícím kódu - ukazuje opačný obraz.

Stojí za to zdůraznit metodologický detail. BridgeBench Debugging měří tři věci: schopnost reprodukovat reportovanou chybu, schopnost ji diagnostikovat, schopnost opravit bez regrese jinde. Je to kombinovaný benchmark, ne izolované “najdi bug”. V praxi vývojářského workflow je tohle přesně to, co se dělá. Oproti tomu SWE-Bench Pro, kde Opus 4.7 vede, měří end-to-end řešení izolovaných issue z GitHub repozitářů - úloha vzdálenější od reálné práce na živém kódu.

Dlouhý kontext: reálná mezera

Zde je K2.6 slabší a je důležité nenechat se zmást hype. Kontextové okno 256K je proti 1M u Opus 4.7 a Gemini 3.1 Pro čtyřikrát menší. Pro code review středně velkého monorepa nebo pro ingest celé technické dokumentace je to strukturální a zásadní omezení.

Horší je ale kvalitativní úroveň. Technická review K2.5 od nezávislého Reviewer Leucopsis dokumentuje degradaci přesnosti v rámci kontextového okna: stabilní 92-94 % přesnost jen do 100 000 tokenů, pokles na 82-86 % mezi 150 000 a 200 000 tokeny, a dalších 75-80 % při přiblížení k 256 000 tokenů. Jeden dokumentovaný enterprise případ: právnická firma zkusila zpracovat 180 000 tokenů kontraktů v jednom průchodu a zaznamenala 18 % error rate, což vynutilo strategii chunkingu (což podkopává hodnotu velkého okna).

Moonshot u K2.6 hlásí zlepšení stability v rámci kontextového okna, ale konkrétní MRCR (Multi-Round Coreference Resolution) data nepublikoval. Bez nich je tvrzení “lepší long-context stabilita” marketingové. Pro kontext: Opus 4.6 dosáhl na MRCR v2 8-needle 76 % na 1M kontextu a 92 % na 256K. Pokud tomuto benchmarku důvěřujeme, je Opus 4.6 na 256K výrazně lepší než K2.5 (92 % vs 82-86 %). K2.6 by tuto mezeru musel zúžit, ale data k tomu zatím nejsou.

Paradoxně tenhle nedostatek K2.6 oslabuje méně, než by se zdálo. První nezávislá měření Opus 4.7 na MRCR v2 8-needle ukazují dramatickou regresi: ze 91,9 % (4.6) na 59,2 % (4.7) na 256K, a ze 78,3 % na 32,2 % na 1M. Anthropic tedy na long contextu ztratil pozici, kterou si u 4.6 vybudoval. Pokud tedy je teze, že K2.6 v long contextu zaostává, validní jen do momentu porovnání s Opus 4.6 - a ne s Opus 4.7. Ve světě ke dni 21. dubna 2026 je pro long-context úlohy nad 500K tokenů nejlepší model stále Opus 4.6, pokud k němu má uživatel přístup. Opus 4.7 je v této oblasti zhoršením.

Agent Swarm: nová kategorie, ne lepší model

Nejzásadnější rozdíl K2.6 oproti Opus 4.7 není v benchmarkových číslech, ale v architektuře. Kimi K2.6 nativně podporuje orchestraci až 300 paralelních sub-agentů ve 4 000 koordinovaných krocích z jednoho promptu. Opus 4.7 má Auto mode a xhigh effort level, ale pracuje v single-agent paradigmatu s maximálně několika současnými voláními nástrojů v rámci jedné session.

Co to prakticky znamená: Moonshot dokumentuje případ z reálného běhu, kde K2.6 samostatně 13 hodin iteroval 12 optimalizačních strategií, provedl 1 000+ tool calls a modifikoval 4 000+ řádků kódu - konkrétně implementoval a optimalizoval model inference pro Qwen3.5-0.8B v Zigu (jazyk, který při tréninku prakticky nepoužíval). Výsledná propustnost rostla z 15 tokens/sec na 193 tokens/sec, tedy o 20 % lepší výkon než komerční LM Studio pro stejný model.

Tohle není benchmarková metafora. Je to dokumentovaný delší autonomní běh, který by v Opus 4.7 paradigmatu vyžadoval tříagentní setup (orchestrator + worker + reviewer) a ruční propojení přes externí harness. V K2.6 je to nativně v modelu. Supervisor-plus-workers topologie je hardcoded v API.

Pro praktickou práci to má dva důsledky. První, pozitivní pro K2.6: škála je jiná. Pokud máte úlohu, kterou dokážete rozdělit na nezávislé sub-úkoly (například audit tisíce funkcí v codebase, migrace 50 komponent mezi frameworky, analýza tisíců logů), K2.6 ji dokončí v jednom běhu. Opus 4.7 by to rozsekal na sekvenční session nebo by vyžadoval vlastní orchestrační vrstvu.

Druhý důsledek, který se v nadšeném přijetí K2.6 ztrácí: více agentů znamená více míst, kde se něco může pokazit. 300 sub-agentů má 300 bodů, kde se může něco pokazit. Moonshot přidal mechanismus Token Enforcer pro kontrolu formátu tool calls a automatickou kompaktaci kontextu pro zamezení driftu na dlouhých sessions. Je to propojený, rozumně promyšlený systém. Ale pro výrobní nasazení je to úplně jiná úroveň komplexity než single-agent model. Kdo si myslí, že K2.6 je instantní replacement za Opus 4.7, narazí na tuto komplexitu při prvním nekonvenčním workflow.

Srovnání filozofií: Anthropic s Opus 4.7 optimalizuje kvalitu jednotlivého agenta. Moonshot s K2.6 optimalizuje propustnost distribuovaného systému. Obě strategie jsou legitimní. Ale pro dlouhé autonomní úkoly se škálovanou paralelizací K2.6 nabídne výrazně lepší infrastrukturu.

Ekonomika a deployment

Cenové srovnání je brutální. V přepočtu na blended cenu 3:1 vstup/výstup (standardní model Artificial Analysis):

Model	Vstup	Výstup	Blended (3:1)	Poměr vůči K2.6
Kimi K2.6	0,60 USD	3,00 USD	1,20 USD
GLM-5.1	1,00 USD	3,20 USD	1,55 USD	1,3×
Cursor Composer 2	0,50 USD	2,50 USD	1,00 USD	0,83×
Claude Sonnet 4.6	3,00 USD	15,00 USD	6,00 USD	5×
GPT-5.4 (odhadem)	4,00 USD	20,00 USD	~8,00 USD	6,7×
Claude Opus 4.7	5,00 USD	25,00 USD	10,00 USD	8,3×

Pro agentní workflow s 20+ volání nástrojů na úlohu se tento faktor zvětšuje. Každé volání nástrojů zpracovává celou předchozí historii jako vstupní kontext, takže input tokeny rostou kvadraticky se složitostí session. Opus 4.7 nově spotřebovává 1,0-1,35× více tokenů kvůli novému tokenizeru, a xhigh effort level je default v Claude Code. V praktickém enterprise agentním workflow je poměr nákladů K2.6 vůči Opus 4.7 obvykle 10× až 15×.

Praktický důsledek: K2.6 má Anthropic-compatible API. Existující Claude Code workflow, MCP integrace a custom harness lze přepnout na K2.6 drop-in změnou base URL:

client = OpenAI(
    api_key="moonshot-api-key",
    base_url="https://api.moonshot.ai/v1"  # místo Anthropic endpointu
)

Pro vývojáře s hotovým Claude Code workflow je to otázka pěti minut testování, ne týdne refaktoringu. To je strukturální výhoda, kterou Moonshot záměrně postavil.

Self-hosting je druhá dimenze. Váhy K2.6 jsou na Hugging Face zdarma ke stažení. Provozní náklady ale nejsou zanedbatelné: pro plnou 1T MoE s 32B aktivními parametry je potřeba minimálně 192 GB VRAM (typicky 8× H100 nebo 4× H200), plus stovky GB RAM pro context serving. Podle zveřejněných benchmark runů je vhodné počítat s 12-18 tokens/sec při dávkovém zpracování bez INT4, nebo 25-40 tokens/sec s nativní INT4 kvantizací. Pro small-to-medium enterprise workload vycházející výhodněji než API u Moonshota to je až od zhruba 500 milionů tokenů měsíčně. Pod tímto objemem API.

Kde self-host skutečně vyhrává, je data control. Regulovaná prostředí (zdravotnictví, finance v EU, vládní), kde data nesmí opustit vlastní infrastrukturu, mají s K2.6 reálnou volbu. Opus 4.7 v této kategorii nekonkuruje - je dostupný jen přes cloud API.

Rizika a limity

Střízlivé hodnocení musí jmenovat slabiny a neurčitosti. Jdou v pořadí důležitosti.

Halucinace a kalibrace jistoty. Technická review K2.5 explicitně zmiňovala “high hallucination rate and weaker general reasoning” jako slabinu předchozí verze. K2.6 podle Moonshota vylepšila instruction following a self-correction, ale konkrétní halucinační data z nezávislých benchmarků (BridgeBench Hallucination, FactScore, TruthfulQA) zatím nejsou publikována. Pro kontext: Grok 4.20 Reasoning dosahuje na BridgeBench Hallucination 90,0 %, GPT-5.4 83,3 %. Kimi K2 Thinking (předchozí generace) se pohyboval v druhé polovině leaderboardu. Pokud K2.6 tento vzorec nezlomil, je to reálný problém pro workflow, kde chyby jsou drahé (právní, finanční, zdravotnický kontext).

Regulační a geopolitické riziko. NIST CAISI evaluace předchozí verze Kimi K2 Thinking konstatovala, že jde o “nejschopnější model od čínského developera v době vydání, ale stále zaostává za předními US modely v agentním vývoji”. Pro enterprise nasazení v US a EU prostředí to znamená, že k jeho nasazení v některých sektorech (obrana, kritická infrastruktura, ale i velké banky) budou výhrady či stopky. Tohle není technický problém K2.6, ale strukturální problém jeho pozice na trhu.

Reprodukovatelnost a versioning. Implicator.ai pojmenoval to, co je u většiny “open” AI laboratoří slabé: Kimi Code produktová stránka používá label “kimi-for-coding (powered by kimi-k2.6)” bez verzování. Pokud Moonshot v budoucnu vymění model pod stejným labelem (přesně to, co udělal Anthropic s Opus 4.6 v únoru a březnu), provozovatel produkčního workflow nemá auditn stopu. Pro kontext: tohle je přesně ta kritika, která vedla k “nerfing” kauze u Anthropic. Open-weights nic z toho samo o sobě neřeší - otevřené váhy neznamenají otevřený deployment.

Kontextová degradace nad 100K tokenů. Už zmíněno, ale stojí za to zopakovat: bez MRCR dat pro K2.6 je tvrzení o lepší stabilitě dlouhého kontextu jen marketingové tvrzení. Pokud vaše úloha pracuje s kontextem nad 150K tokenů, buď K2.6 sám otestujte, nebo se držte Opus 4.6.

Vícekrokové volání nástrojů s režimem uvažování. Dokumentace Moonshotu explicitně uvádí: při zapnutém režimu uvažování musí být pole reasoning_content z předchozích odpovědí modelu zachováno v kontextu, jinak skončí požadavek chybou. Vestavěný nástroj $web_search navíc s režimem uvažování nefunguje současně - je nutné reasoning vypnout, nebo použít externí vyhledávání. Tyto provozní detaily v Anthropic API neexistují. Pro přímou náhradu Claude Code není přechod zcela bez komplikací.

Praktické doporučení: pro koho K2.6, pro koho Opus 4.7

Pojďme to přepracovat. Projdu to bod po bodu a nahradím anglicismy tam, kde má čeština zavedené ekvivalenty. Některé technické termíny nechávám - SWE-Bench je název benchmarku, MCP je protokol Anthropicu, WebGL/Framer Motion/Three.js jsou názvy konkrétních knihoven.

Přepracovaná verze

Místo univerzálního verdiktu konkrétní scénáře:

Kdy volit K2.6:

Dlouhé agentní smyčky s vysokým objemem volání nástrojů (nad 50 volání na úlohu), kde náklady na Opus 4.7 exponenciálně rostou
Škálované paralelní úlohy, kde má smysl rozdělit práci na 10+ dílčích úkolů (audit kódové základny, migrace, hromadná analýza)
Generace frontendu a uživatelských rozhraní (K2.6 má podle prvních testů přesvědčivé výsledky na WebGL, Framer Motion, Three.js)
Kontext s citlivými daty, kde je potřeba vlastní hosting (regulovaná prostředí, ochrana duševního vlastnictví)
Pracovní postupy, kde je akceptovatelná 2-3 měsíční iterace a odolnost vůči občasným regresím (open-source ekosystém iteruje rychle)

Kdy držet Opus 4.7:

Komplexní úlohy kódování v jedné relaci, kde rozdíl 5-6 bodů na SWE-Bench Pro znamená rozdíl mezi “hotovo” a “nedotaženo”
Podniková prostředí s požadavky na shodu s regulací proti čínským modelům
Pracovní postupy, kde je praktickou referencí ustálené prostředí Claude Code s ověřenými prompty a integracemi MCP, jejichž opětovné testování se nevyplatí
Úlohy, kde “nejlepší jednotlivý agent” porazí “lepší distribuovaný systém” (například kritická code review, kde jeden důsledný recenzent je lepší než deset povrchních)

Kdy držet Opus 4.6 místo 4.7:

Úlohy s dlouhým kontextem nad 256K tokenů (regrese 4.7 na MRCR je dramatická)
Ladění živého kódu (regrese na BridgeBench)
Pracovní zátěž, kde jsou ustálené prompty a tokenové rozpočty - 4.7 s novým tokenizerem a výchozím xhigh režimem tyto rozpočty rozbije

Kdy testovat obojí vedle sebe:

Jakýkoli nový projekt s agentním pracovním postupem. Kompatibilita API dělá paralelní test triviální. Za dvě hodiny víš, který model ti vyhovuje lépe pro tvůj konkrétní případ užití.

Závěr: portfolio, ne vítěz

Kimi K2.6 není jednoznačně lepší než Claude Opus 4.7 ani naopak. Je to jiná nabídka, která v určitých rozměrech vyhrává a v jiných prohrává. Otevřené váhy, osminová cena, nativní orchestrace agentů a API kompatibilní s Anthropicem jsou strukturální výhody, které Opus 4.7 nemá. Lepší výkon jednotlivého agenta při kódování, širší licenční přijetí a soulad s regulací, a okno 1M tokenů (se slabinou regrese na MRCR) jsou naopak strukturální výhody Opus 4.7.

Pro technického čtenáře s rozhodovací odpovědností to znamená jediné: portfolio místo jedné značky. Držet jeden klíč k API u Anthropicu a druhý u Moonshota, testovat na reálných úlohách, vést vlastní data o kvalitě a ceně. Žebříčky benchmarků dávají orientační signál, ale nenahrazují test na vlastním pracovním postupu.

Střízlivá předpověď dalšího kola: Moonshot má v přípravě Kimi K3, podle úniků 3-4 biliony parametrů, s výslovným cílem dorovnat americkou špičku. Anthropic drží interně Mythos Preview, který je podle jejich vlastní tabulky o 10-15 procentních bodů před Opus 4.7 na všech klíčových benchmarcích, ale nedostupný mimo Project Glasswing. Z.ai chystá GLM-5.2. Do tří měsíců budeme mít další kolo, které pravděpodobně opět přeformuluje otázku.

Do té doby je trh definován ne vítězem, ale portfoliem. Kdo si myslí, že “vítězný model” existuje, platí příliš mnoho za příliš málo pružnosti. Kimi K2.6 není vítěz. Je to dobrá připomínka, že vítězem není ani žádný jeho konkurent.