MiMo V2.5: Xiaomi vydala open-weights bilionový model pod MIT licencí

Xiaomi 22. dubna 2026 vydala MiMo V2.5-Pro a otevřela váhy obou variant pod MIT licencí. Pro firemní nasazení to znamená, že MiMo přestal být jen API službou - stal se prvním open-weights bilionovým modelem s nejlepšími benchmarkovými skóre, který lze komerčně nasadit, dotrénovat na vlastních datech a vyladit pro specializované úlohy. Žádný americký model v této kategorii dnes není.

Co MiMo V2.5 je

Architektura a parametry

Model běží na MoE architektuře (Mixture of Experts) s 1 bilionem celkových parametrů, z nichž je v každém tokenu aktivních 42 miliard. Klíčová technická novinka je Hybrid Attention v poměru 7:1, zvýšeno z 5:1 u předchozí varianty V2-Flash. Mechanismus dělí pozornost mezi “skimování” 85 % obsahu a soustředěnou pozornost na 15 % nejrelevantnějšího kontextu - princip, který umožňuje udržet 1M okno bez kvadratického nárůstu výpočetních nákladů.

Doplňuje to Multi-Token Prediction (MTP) vrstva pro rychlejší generování a podpora textu, obrazu, audia i videa v jediném modelu. To je oproti V2-Pro/V2-Omni rozdělení na zvláštní modely zásadní zjednodušení.

MiMo division vede Luo Fuli, dřívější jádrová přispěvatelka DeepSeek R1 a V-series modelů. Její přechod do Xiaomi na konci roku 2025 vysvětluje architektonickou genealogii - Hybrid Attention a sparse attention design jsou silně ovlivněny prací z DeepSeek éry.

Dvě varianty modelu

Xiaomi vydala dvě varianty:

MiMo-V2.5-Pro - vlajkový model pro náročné agentní úlohy, dlouhé autonomní běhy a komplexní softwarové inženýrství
MiMo-V2.5 (bez Pro) - levnější varianta pro běžnou znalostní práci, rychlejší (100-150 tokenů/s vs 60-80), s nižší cenou

Cenotvorba

Varianta	Vstup do 256K	Výstup do 256K	Vstup nad 256K	Výstup nad 256K
MiMo-V2.5-Pro	$1,00/M	$3,00/M	$2,00/M	$6,00/M
MiMo-V2.5	$0,40/M	$2,00/M	nezveřejněno	nezveřejněno

Klíčový detail: cena se zdvojnásobuje při využití plného 1M kontextu. Pro úlohy, kde reálně potřebujete celé dlouhé okno, je MiMo dvakrát dražší, než katalogová cena na první pohled naznačuje. Toto Xiaomi v marketingu nezdůrazňuje, ale pro plánování rozpočtu je to zásadní informace.

MIT licence a self-hosting jako alternativa

dubna 2026 Xiaomi otevřela váhy obou variant pod MIT licencí. Pro firemní nasazení to znamená:

Komerční použití povoleno bez další autorizace nebo poplatků
Continued training povoleno - model lze dotrénovat na vlastních datech
Fine-tuning povolen pro specializované úlohy
Bez omezení podle velikosti firmy (rozdíl oproti Kimi K2.6, kde Modified MIT vyžaduje branding pro velké firmy)

Váhy jsou na Hugging Face v repozitáři XiaomiMiMo.

Infrastrukturní požadavky pro self-hosting nejsou triviální. V2.5-Pro s 42 miliardami aktivních parametrů na inferenci vyžaduje:

Minimálně 192 GB VRAM pro plnou přesnost (typicky 8× H100 nebo 4× H200)
FP4/FP8 mixed precision podporována, snižuje paměťovou náročnost přibližně na polovinu
Doporučený inference engine: SGLang nebo vLLM s optimalizací pro MoE routing
MTP (Multi-Token Prediction) vrstva pro rychlejší generování

V2.5 (bez Pro) je infrastrukturně méně náročná, ale stejně nejde o lehkou zátěž - vhodné pro firmy s vlastními GPU clustery, ne pro single-node deployment.

Pro koho self-hosting dává smysl:

Regulovaná prostředí (EU GDPR, americká zdravotnictví HIPAA, finance) s omezením na zahraniční API
Firmy s vysokými objemy (od cca 500 milionů tokenů měsíčně se vyplatí proti API)
Specializované use cases, kde je potřeba fine-tuning na vlastních datech
Datová suverenita - nutnost mít data plně pod vlastní kontrolou

Pro koho self-hosting nedává smysl:

Malé a střední firmy bez vlastní GPU infrastruktury
Variabilní zátěž s nepředvídatelným objemem
Týmy bez ML inženýrů schopných spravovat MoE inferenci v produkci

Benchmarky: kde MiMo vede a kde zaostává

Benchmark	MiMo V2.5-Pro	Pro srovnání	Rozdíl
AA Intelligence Index v4.0	54	průměr modelů této třídy: 33	+21 bodů
SWE-Bench Pro	57,2 %	průměr: ~25 %	+32 bodů
ClawEval (Pass^3)	64 %	Opus 4.6: 66,3 %	-2,3 bodu
τ³-Bench	72,9 %	top tier	konkurenceschopné
Humanity’s Last Exam	48,0 %	GPT-5.4: 58,7 %	-10,7 bodu
Halucinační míra	30 %	V2-Pro Flash: 48 %	-18 bodů

Kde MiMo vede:

ClawEval - prakticky dorovnává Opus 4.6
SWE-Bench Pro - výrazně nad průměrem oboru
Halucinační míra je o 18 bodů nižší než u předchozí varianty

Kde zaostává:

Humanity’s Last Exam - 10,7 bodu pod GPT-5.4 (omezení v obecném reasoningu)
Specializované úzké benchmarky (Apex Shortlist) - tam vede Gemini 3.1 Pro a GPT-5.4

Token efficiency: rozporné zprávy z různých zdrojů

Tohle je nejvíce nepřesně prezentovaná stránka modelu a stojí za detailní rozbor.

Marketingový claim Xiaomi: V2.5-Pro spotřebovává 40-60 % méně tokenů než Claude Opus 4.6, Gemini 3.1 Pro a GPT-5.4 při srovnatelné kvalitě. Konkrétně na ClawEval dosahuje 64 % Pass^3 s ~70 000 tokeny per trajectory.

Nezávislé měření Artificial Analysis: Při běhu kompletního Intelligence Index v4.0 V2.5-Pro spotřebovala 92M tokenů, víc než K2.6 (89M) a víc než průměr (35M). AA explicitně označuje V2.5-Pro jako “very verbose” oproti průměru.

Jak se tyhle dva údaje vyrovnávají? Měří různé věci. Xiaomi měří efficiency na úzce vymezeném benchmarku (ClawEval - agentic tasks), kde má model trénované silné stránky. AA měří kompozitní index napříč deseti různými oblastmi včetně obecného reasoningu, znalostí a kódování.

Důsledek pro výběr modelu:

Pokud děláte agentní coding workflow s opakovanými trajectory - efektivita V2.5-Pro je reálná a měřitelná
Pokud děláte obecnou znalostní práci - model bude generovat víc výstupu, než průměr

Pro váš rozpočet je rozhodující, které pásmo využití převažuje.

OpenRouter pozice jako marketingový nástroj

Březen a začátek dubna 2026 byly pro Xiaomi marketingovým úspěchem. Anonymní model Hunter Alpha se objevil na OpenRouter 11. března bez brandingu, sedm dnů v denních žebříčcích, přes bilion zpracovaných tokenů, komunita spekulovala o DeepSeek V4. 18. března Xiaomi odhalila, že Hunter Alpha byl early test build MiMo-V2-Pro. Začátkem dubna Xiaomi MiMo dosáhla 21,1 % veškerého provozu na OpenRouter, třikrát víc než OpenAI s 7,5 %. V měsíčním součtu za duben drží MiMo druhé místo s 5,99T tokenů.

Tohle ale nebyla organická adopce kvalitou modelu. Růst přišel z dohody s agentním nástrojem Hermes, která dávala uživatelům dočasný free access k MiMo V2-Pro. Po skončení promo akce začátkem druhé poloviny dubna pozice MiMo prudce klesla. V týdenním žebříčku k 28. dubnu 2026 není MiMo v top 20. Pozici #1 převzala Kimi K2.6 s týdenním růstem +7 683 % - skoro jistě výsledek podobné free access strategie přes jiný agentní nástroj.

Pro vibecoding.cz publikum z toho plyne praktické varování: OpenRouter rankings měří marketingové strategie a free access cykly, ne kvalitu modelů. Tencent Hy3 preview se dnes drží na 2. místě denního žebříčku jako nový free model - další iterace stejného vzorce. Skutečné rozhodnutí o AI stacku se nemá řídit pozicí na OpenRouter, ale benchmarkovými skóre, cenotvorbou pro plný objem a souladem architektury s vaším workflow.

Co ale OpenRouter čísla potvrzují, je kapacitní připravenost Xiaomi dodávat bilionový model v produkčním měřítku. 5,99T tokenů za měsíc je reálná infrastrukturní zátěž, kterou Xiaomi ustála bez výpadků. To je relevantní pro firmy zvažující produkční nasazení.

Pro koho V2.5-Pro a pro koho V2.5

V2.5-Pro má smysl, pokud:

Děláte dlouhé autonomní běhy (8+ hodin) v Claude Code, OpenCode nebo Kilo
Pracujete s velkým repozitářem a potřebujete “harness awareness” - model, který rozumí prostředí
Děláte algoritmické úlohy, kde Xiaomi explicitně cílí (kompilátory, EDA, refactoring)
Váš workflow má opakované trajectory s podobnou strukturou (efficiency claim drží)
Potřebujete multimodální zpracování ve stejné session (obraz + audio + text)

V2.5 (bez Pro) má smysl, pokud:

Děláte běžnou znalostní práci, ne špičkové uvažování.
Citlivost na cenu je vysoká (60 % cena Pro varianty)
Potřebujete vyšší rychlost generování (100-150 tokenů/s vs 60-80)

Žádná z variant nemá smysl, pokud:

Pracujete v regulovaném prostředí s omezením na čínské poskytovatele a zároveň nemůžete self-hostovat (s open-weights variantou je čínský původ poskytovatele eliminovatelný)
Potřebujete 1M kontext za jednotnou cenu (zdvojnásobení nad 256K platí pro API; self-host řeší)
Váš workflow je obecná znalostní Q&A (verbosnost na Intelligence Indexu)
Nemáte vlastní GPU infrastrukturu a vysoké objemy zároveň (API je pak adekvátní)

Závěr

MiMo V2.5-Pro není revoluční. Jeho benchmarky jsou solidní, ale ne špičkové. Token efficiency je přeprodukovaný marketingový bod. Cena za 1M kontext skrývá zdvojnásobení.

Co je ale unikátní, je kombinace dvou věcí: open-weights MIT licence pro bilionový MoE model s frontier benchmarkovými skóre, plus dokumentovaná schopnost dlouhých autonomních běhů (4-12 hodin, tisíce volání nástrojů). Žádný americký frontier model v této kombinaci dnes není dostupný.

Aktuální mapa open-weights frontier modelů z čínských laboratoří v dubnu 2026 obsahuje:

DeepSeek V4-Pro a V4-Flash (24. dubna, open-weights)
GLM-5.1 (27. března, MIT)
Kimi K2.6 (20. dubna, Modified MIT)
Qwen 3.6-35B-A3B (17. dubna, Apache 2.0)
MiMo V2.5-Pro a V2.5 (27. dubna, MIT)

Šest frontier-tier open-weights modelů z Číny za jeden měsíc. Žádný americký frontier model není dostupný open-weights - Anthropic, OpenAI ani Google v této kategorii neúčastní.

Pro vaše workflow to znamená dvě věci. Krátkodobě: MiMo si zaslouží test na konkrétní úloze, ne jen poznámku v tabulce. Nastoupil rychle a tiše, lépe je ho zkusit než o něm číst. Dlouhodobě: AI stack pro evropské a české firmy v roce 2026 nebude rozhodnut jen výběrem mezi Anthropic a OpenAI. Open-weights čínská alternativa je reálná, technicky srovnatelná na klíčových úlohách a strukturálně jiná v ekonomice nasazení. Strategie “počkáme, až bude open-weights model od OpenAI nebo Anthropic” už nedává smysl - nepřijde, nebo přijde výrazně později než čínská konkurence.