MiMo V2.5: Xiaomi vydala open-weights bilionový model pod MIT licencí
Xiaomi 22. dubna 2026 vydala MiMo V2.5-Pro a otevřela váhy obou variant pod MIT licencí. Pro firemní nasazení to znamená, že MiMo přestal být jen API službou - stal se prvním open-weights bilionovým modelem s nejlepšími benchmarkovými skóre, který lze komerčně nasadit, dotrénovat na vlastních datech a vyladit pro specializované úlohy. Žádný americký model v této kategorii dnes není.
Co MiMo V2.5 je
Architektura a parametry
Model běží na MoE architektuře (Mixture of Experts) s 1 bilionem celkových parametrů, z nichž je v každém tokenu aktivních 42 miliard. Klíčová technická novinka je Hybrid Attention v poměru 7:1, zvýšeno z 5:1 u předchozí varianty V2-Flash. Mechanismus dělí pozornost mezi “skimování” 85 % obsahu a soustředěnou pozornost na 15 % nejrelevantnějšího kontextu - princip, který umožňuje udržet 1M okno bez kvadratického nárůstu výpočetních nákladů.
Doplňuje to Multi-Token Prediction (MTP) vrstva pro rychlejší generování a podpora textu, obrazu, audia i videa v jediném modelu. To je oproti V2-Pro/V2-Omni rozdělení na zvláštní modely zásadní zjednodušení.
MiMo division vede Luo Fuli, dřívější jádrová přispěvatelka DeepSeek R1 a V-series modelů. Její přechod do Xiaomi na konci roku 2025 vysvětluje architektonickou genealogii - Hybrid Attention a sparse attention design jsou silně ovlivněny prací z DeepSeek éry.
Dvě varianty modelu
Xiaomi vydala dvě varianty:
- MiMo-V2.5-Pro - vlajkový model pro náročné agentní úlohy, dlouhé autonomní běhy a komplexní softwarové inženýrství
- MiMo-V2.5 (bez Pro) - levnější varianta pro běžnou znalostní práci, rychlejší (100-150 tokenů/s vs 60-80), s nižší cenou
Cenotvorba
| Varianta | Vstup do 256K | Výstup do 256K | Vstup nad 256K | Výstup nad 256K |
|---|---|---|---|---|
| MiMo-V2.5-Pro | $1,00/M | $3,00/M | $2,00/M | $6,00/M |
| MiMo-V2.5 | $0,40/M | $2,00/M | nezveřejněno | nezveřejněno |
Klíčový detail: cena se zdvojnásobuje při využití plného 1M kontextu. Pro úlohy, kde reálně potřebujete celé dlouhé okno, je MiMo dvakrát dražší, než katalogová cena na první pohled naznačuje. Toto Xiaomi v marketingu nezdůrazňuje, ale pro plánování rozpočtu je to zásadní informace.
MIT licence a self-hosting jako alternativa
- dubna 2026 Xiaomi otevřela váhy obou variant pod MIT licencí. Pro firemní nasazení to znamená:
- Komerční použití povoleno bez další autorizace nebo poplatků
- Continued training povoleno - model lze dotrénovat na vlastních datech
- Fine-tuning povolen pro specializované úlohy
- Bez omezení podle velikosti firmy (rozdíl oproti Kimi K2.6, kde Modified MIT vyžaduje branding pro velké firmy)
Váhy jsou na Hugging Face v repozitáři XiaomiMiMo.
Infrastrukturní požadavky pro self-hosting nejsou triviální. V2.5-Pro s 42 miliardami aktivních parametrů na inferenci vyžaduje:
- Minimálně 192 GB VRAM pro plnou přesnost (typicky 8× H100 nebo 4× H200)
- FP4/FP8 mixed precision podporována, snižuje paměťovou náročnost přibližně na polovinu
- Doporučený inference engine: SGLang nebo vLLM s optimalizací pro MoE routing
- MTP (Multi-Token Prediction) vrstva pro rychlejší generování
V2.5 (bez Pro) je infrastrukturně méně náročná, ale stejně nejde o lehkou zátěž - vhodné pro firmy s vlastními GPU clustery, ne pro single-node deployment.
Pro koho self-hosting dává smysl:
- Regulovaná prostředí (EU GDPR, americká zdravotnictví HIPAA, finance) s omezením na zahraniční API
- Firmy s vysokými objemy (od cca 500 milionů tokenů měsíčně se vyplatí proti API)
- Specializované use cases, kde je potřeba fine-tuning na vlastních datech
- Datová suverenita - nutnost mít data plně pod vlastní kontrolou
Pro koho self-hosting nedává smysl:
- Malé a střední firmy bez vlastní GPU infrastruktury
- Variabilní zátěž s nepředvídatelným objemem
- Týmy bez ML inženýrů schopných spravovat MoE inferenci v produkci
Benchmarky: kde MiMo vede a kde zaostává
| Benchmark | MiMo V2.5-Pro | Pro srovnání | Rozdíl |
|---|---|---|---|
| AA Intelligence Index v4.0 | 54 | průměr modelů této třídy: 33 | +21 bodů |
| SWE-Bench Pro | 57,2 % | průměr: ~25 % | +32 bodů |
| ClawEval (Pass^3) | 64 % | Opus 4.6: 66,3 % | -2,3 bodu |
| τ³-Bench | 72,9 % | top tier | konkurenceschopné |
| Humanity’s Last Exam | 48,0 % | GPT-5.4: 58,7 % | -10,7 bodu |
| Halucinační míra | 30 % | V2-Pro Flash: 48 % | -18 bodů |
Kde MiMo vede:
- ClawEval - prakticky dorovnává Opus 4.6
- SWE-Bench Pro - výrazně nad průměrem oboru
- Halucinační míra je o 18 bodů nižší než u předchozí varianty
Kde zaostává:
- Humanity’s Last Exam - 10,7 bodu pod GPT-5.4 (omezení v obecném reasoningu)
- Specializované úzké benchmarky (Apex Shortlist) - tam vede Gemini 3.1 Pro a GPT-5.4
Token efficiency: rozporné zprávy z různých zdrojů
Tohle je nejvíce nepřesně prezentovaná stránka modelu a stojí za detailní rozbor.
Marketingový claim Xiaomi: V2.5-Pro spotřebovává 40-60 % méně tokenů než Claude Opus 4.6, Gemini 3.1 Pro a GPT-5.4 při srovnatelné kvalitě. Konkrétně na ClawEval dosahuje 64 % Pass^3 s ~70 000 tokeny per trajectory.
Nezávislé měření Artificial Analysis: Při běhu kompletního Intelligence Index v4.0 V2.5-Pro spotřebovala 92M tokenů, víc než K2.6 (89M) a víc než průměr (35M). AA explicitně označuje V2.5-Pro jako “very verbose” oproti průměru.
Jak se tyhle dva údaje vyrovnávají? Měří různé věci. Xiaomi měří efficiency na úzce vymezeném benchmarku (ClawEval - agentic tasks), kde má model trénované silné stránky. AA měří kompozitní index napříč deseti různými oblastmi včetně obecného reasoningu, znalostí a kódování.
Důsledek pro výběr modelu:
- Pokud děláte agentní coding workflow s opakovanými trajectory - efektivita V2.5-Pro je reálná a měřitelná
- Pokud děláte obecnou znalostní práci - model bude generovat víc výstupu, než průměr
Pro váš rozpočet je rozhodující, které pásmo využití převažuje.
OpenRouter pozice jako marketingový nástroj
Březen a začátek dubna 2026 byly pro Xiaomi marketingovým úspěchem. Anonymní model Hunter Alpha se objevil na OpenRouter 11. března bez brandingu, sedm dnů v denních žebříčcích, přes bilion zpracovaných tokenů, komunita spekulovala o DeepSeek V4. 18. března Xiaomi odhalila, že Hunter Alpha byl early test build MiMo-V2-Pro. Začátkem dubna Xiaomi MiMo dosáhla 21,1 % veškerého provozu na OpenRouter, třikrát víc než OpenAI s 7,5 %. V měsíčním součtu za duben drží MiMo druhé místo s 5,99T tokenů.
Tohle ale nebyla organická adopce kvalitou modelu. Růst přišel z dohody s agentním nástrojem Hermes, která dávala uživatelům dočasný free access k MiMo V2-Pro. Po skončení promo akce začátkem druhé poloviny dubna pozice MiMo prudce klesla. V týdenním žebříčku k 28. dubnu 2026 není MiMo v top 20. Pozici #1 převzala Kimi K2.6 s týdenním růstem +7 683 % - skoro jistě výsledek podobné free access strategie přes jiný agentní nástroj.
Pro vibecoding.cz publikum z toho plyne praktické varování: OpenRouter rankings měří marketingové strategie a free access cykly, ne kvalitu modelů. Tencent Hy3 preview se dnes drží na 2. místě denního žebříčku jako nový free model - další iterace stejného vzorce. Skutečné rozhodnutí o AI stacku se nemá řídit pozicí na OpenRouter, ale benchmarkovými skóre, cenotvorbou pro plný objem a souladem architektury s vaším workflow.
Co ale OpenRouter čísla potvrzují, je kapacitní připravenost Xiaomi dodávat bilionový model v produkčním měřítku. 5,99T tokenů za měsíc je reálná infrastrukturní zátěž, kterou Xiaomi ustála bez výpadků. To je relevantní pro firmy zvažující produkční nasazení.
Pro koho V2.5-Pro a pro koho V2.5
V2.5-Pro má smysl, pokud:
- Děláte dlouhé autonomní běhy (8+ hodin) v Claude Code, OpenCode nebo Kilo
- Pracujete s velkým repozitářem a potřebujete “harness awareness” - model, který rozumí prostředí
- Děláte algoritmické úlohy, kde Xiaomi explicitně cílí (kompilátory, EDA, refactoring)
- Váš workflow má opakované trajectory s podobnou strukturou (efficiency claim drží)
- Potřebujete multimodální zpracování ve stejné session (obraz + audio + text)
V2.5 (bez Pro) má smysl, pokud:
- Děláte běžnou znalostní práci, ne špičkové uvažování.
- Citlivost na cenu je vysoká (60 % cena Pro varianty)
- Potřebujete vyšší rychlost generování (100-150 tokenů/s vs 60-80)
Žádná z variant nemá smysl, pokud:
- Pracujete v regulovaném prostředí s omezením na čínské poskytovatele a zároveň nemůžete self-hostovat (s open-weights variantou je čínský původ poskytovatele eliminovatelný)
- Potřebujete 1M kontext za jednotnou cenu (zdvojnásobení nad 256K platí pro API; self-host řeší)
- Váš workflow je obecná znalostní Q&A (verbosnost na Intelligence Indexu)
- Nemáte vlastní GPU infrastrukturu a vysoké objemy zároveň (API je pak adekvátní)
Závěr
MiMo V2.5-Pro není revoluční. Jeho benchmarky jsou solidní, ale ne špičkové. Token efficiency je přeprodukovaný marketingový bod. Cena za 1M kontext skrývá zdvojnásobení.
Co je ale unikátní, je kombinace dvou věcí: open-weights MIT licence pro bilionový MoE model s frontier benchmarkovými skóre, plus dokumentovaná schopnost dlouhých autonomních běhů (4-12 hodin, tisíce volání nástrojů). Žádný americký frontier model v této kombinaci dnes není dostupný.
Aktuální mapa open-weights frontier modelů z čínských laboratoří v dubnu 2026 obsahuje:
- DeepSeek V4-Pro a V4-Flash (24. dubna, open-weights)
- GLM-5.1 (27. března, MIT)
- Kimi K2.6 (20. dubna, Modified MIT)
- Qwen 3.6-35B-A3B (17. dubna, Apache 2.0)
- MiMo V2.5-Pro a V2.5 (27. dubna, MIT)
Šest frontier-tier open-weights modelů z Číny za jeden měsíc. Žádný americký frontier model není dostupný open-weights - Anthropic, OpenAI ani Google v této kategorii neúčastní.
Pro vaše workflow to znamená dvě věci. Krátkodobě: MiMo si zaslouží test na konkrétní úloze, ne jen poznámku v tabulce. Nastoupil rychle a tiše, lépe je ho zkusit než o něm číst. Dlouhodobě: AI stack pro evropské a české firmy v roce 2026 nebude rozhodnut jen výběrem mezi Anthropic a OpenAI. Open-weights čínská alternativa je reálná, technicky srovnatelná na klíčových úlohách a strukturálně jiná v ekonomice nasazení. Strategie “počkáme, až bude open-weights model od OpenAI nebo Anthropic” už nedává smysl - nepřijde, nebo přijde výrazně později než čínská konkurence.