MiniMax M3 - sparse attention se vrací a přináší levný frontier coding

MiniMax vydal 1. června 2026 model M3, nástupce M2.7 z března. Jádrem je vlastní architektura MSA (MiniMax Sparse Attention), podpora 1M tokenů kontextu a nativní multimodalita včetně obrazu a videa. MiniMax tvrdí, že M3 je první a jediný open-weights model, který kombinuje frontier coding, dlouhý kontext a nativní multimodalitu současně. To tvrzení stojí za skepsi - MiMo V2.5-Pro nabízí podobnou kombinaci. Skutečně zajímavá je ale architektura a cena. Pro vibecoding.cz publikum přinášíme fakta z oficiálního oznámení a dostupných cenových dat. Vydání M3 přichází jen pár dní po oznámení Opus 4.8 - na který ovšem MiniMax ani tentokrát nedotahuje ve výkonu.

Jednu věc MiniMax nezveřejnil - velikost modelu. U M2.7 víme 229 miliard parametrů, u M3 zatím nic. V komunitě je to nejčastější věcná otázka pod oznámením a část pozorovatelů spekuluje, že vzhledem k výsledkům musí být M3 větší než předchozí generace. Bez čísla a bez vah nelze ověřit ani to.

MSA: sparse attention se vrací

Nejzajímavější na M3 je architektonický obrat. MiniMax sparse attention v generaci M2 před rokem explicitně opustil a nyní ji u M3 vrací. Důvod je context scaling - plná pozornost roste s délkou kontextu kvadraticky, což činí 1M okno neúnosně drahým.

MSA řeší to, co konkurenční DSA (DeepSeek) a MoBA - přidává předfiltrovací fázi, která vybírá relevantní bloky KV cache. MiniMax tvrdí, že MSA dělí KV do bloků přesněji a dosahuje vyššího efektivního pokrytí kontextu. Optimalizace na úrovni operátorů (přístup “KV outer gather Q”) čte každý blok jen jednou se souvislým přístupem do paměti.

Výsledná čísla, pokud se potvrdí nezávisle, jsou silná. Při 1M kontextu spotřebuje M3 jen 1/20 per-token compute předchozí generace. Prefill zrychlil více než 9krát, decoding více než 15krát. Proti open-source implementacím Flash-Sparse-Attention a flash-moba je MSA podle MiniMaxu více než 4krát rychlejší. Architektura má být čistá, škálovatelná a hardwarově přívětivá.

Benchmarky

Všechna čísla jsou self-reporty MiniMax. Metodologie je v oznámení popsaná detailně, scaffolding většinou Claude Code.

Benchmark	M3	Kontext srovnání
SWE-Bench Pro	59,0 %	nad GPT-5.5 (58,6 %), pod Opus 4.7 (64,3 %) a 4.8 (69,2 %)
Terminal-Bench 2.1	66,0 %	pod GPT-5.5 (78,2 %) a Opus 4.8 (74,6 %)
MCP Atlas	74,2 %	konkurenceschopné
SWE-fficiency	34,8 %	–
KernelBench Hard	28,8 %	–
SVG-Bench	nad Opus 4.7	generování SVG
OmniDocBench	nad Gemini 3.1 Pro	multimodální
Claw-Eval	nejvyšší skóre	agentní úlohy

Vzorec je jasný. M3 je silný mid-to-high tier model s výjimečnou cenou, ne coding lídr. Na SWE-Bench Pro přesahuje GPT-5.5, ale za Opus generací zaostává. Naopak v SVG generování a multimodálních úlohách (OmniDocBench) podle MiniMaxu vede.

Tři dlouhé běhy

MiniMax kopíruje vzorec, který v dubnu zavedlo Xiaomi u MiMo - místo marketingových slidů publikuje dokumentované dlouhé autonomní běhy.

Reprodukce ICLR 2025 paperu. M3 dostal oceněný paper Learning Dynamics of LLM Finetuning a měl ho samostatně reprodukovat. Běžel téměř 12 hodin, vyprodukoval 18 commitů a 23 experimentálních grafů, dokončil klíčové experimenty a ověřil metodu navrženou v originále.

CUDA kernel optimalizace. M3 měl optimalizovat FP8 GEMM kernel na NVIDIA Hopper architektuře - úloha, která zkušenému týmu zabere jeden až dva týdny. Začínal jen s popisem úlohy a nefunkčním Triton skeletonem, bez referenční implementace. Za zhruba 24 hodin provedl 147 benchmark submissions a 1 959 volání nástrojů. Zlepšil využití hardwaru ze 7,6 procenta na 71,3 procenta, tedy 9,4násobné zrychlení. Zajímavý detail: kromě Opus 4.7 a M3 většina modelů přestala dělat pokrok během prvních 30 submissions a sama skončila. M3 dosáhl nejlepšího řešení až na 145. submission.

Trénování modelů (PostTrainBench). M3 dostal čtyři base modely a měl autonomně provést celý proces od syntézy dat přes trénink po evaluaci, ve 12hodinovém okně. Skóroval 0,37, mírně pod Opus 4.7 (0,42) a GPT-5.5 (0,39), ale nad ostatními modely. MiniMax tu poctivě přiznává, že M3 nevede.

Cena a dostupnost

Cena je hlavní praktický argument M3. Na OpenRouteru běží se zaváděcí 50% slevou na 0,30 dolaru za milion vstupních tokenů a 1,20 dolaru za výstupní. Sleva ale platí jen prvních sedm dní - MiniMax to v oficiální odpovědi potvrdil. Plná sazba pak bude 0,60 / 2,40. Cena se rozlišuje podle délky vstupu - do 512K standardní sazba, nad 512K vyšší long-context sazba pro náročné scénáře jako parsování dlouhých dokumentů.

Pro srovnání s ostatními open-weights modely: DeepSeek V4-Flash je levnější (0,14 / 0,28), MiMo V2.5-Pro srovnatelný (1,00 / 3,00), ale M3 nabízí lepší poměr ceny k multimodalitě a kontextu. Předplatné Token Plan začíná na 20 dolarech měsíčně za zhruba 1,7 miliardy tokenů, kde text, obraz, audio i hudba sdílejí stejný pool.

Token Plan ale provází kontroverze. Spolu s vydáním M3 MiniMax tiše změnil podmínky stávajících předplatných a část uživatelů hlásí výrazné osekání limitů. Někteří popisují, že za stejný Max plán dostali místo dřívějších 4 500 volání za pět hodin nyní jen 1 500, a celý systém limitů se přepnul z počtu volání na tokeny bez předchozího upozornění. Pro plánování rozpočtu to znamená, že inzerovaná cena a kvóty se mohou měnit a stávající závazek nemusí vydržet.

M3 podporuje přepínání thinking módu - zapnutý pro komplexní reasoning a agentní úlohy, vypnutý pro rychlejší odpovědi v latenci citlivých scénářích. Oba módy mají stejnou cenu.

Open-weights váhy a technický report MiniMax slíbil zveřejnit do deseti dnů. Do té doby nelze architekturu nezávisle ověřit ani model self-hostovat. Připomínám, že sliby open-source bývají v tomto segmentu předmětem prodlevy - část komunity to pod oznámením komentuje sarkasticky (“open-weights za deset dní, přečtěte si poznámky pod čarou před nákupem”).

MiniMax Code jako odpověď na Claude Code

Spolu s modelem MiniMax aktualizoval agentní nástroj MiniMax Code, trénovaný společně s M3. Jeho Agent Team rozkládá velké úlohy na vícefázové paralelní workflows řízené clusterem agentů. Skrz Producer + Verifier adversarial harness loop dokáže běžet autonomně dny.

MiniMax explicitně srovnává s Claude Code Dynamic Workflows, které Anthropic vydal před čtyřmi dny. Zatímco Claude Code podle MiniMaxu klade důraz na fixní orchestraci založenou na JS kódu, MiniMax Code se soustředí na hloubkovou reflexi a kontinuální korekci chyb, kde agent v reálném čase upravuje plány podle průběhu. Díky nativní multimodalitě M3 podporuje MiniMax Code i computer use - uživatel může z telefonu zadat úlohu, kterou nástroj provede napříč aplikacemi na počítači. MiniMax Code je postaven na open-source projektech OpenCode a Pi a má být open-source.

Co dělat teď a co počkat

M3 dává smysl, pokud:

Děláte agentní coding s dlouhým kontextem a citlivostí na cenu
Potřebujete nativní multimodalitu (obraz, video, computer use) v jednom modelu
Pracujete s 1M kontextem a chcete nižší compute náklady
Hledáte open-weights model pro budoucí self-hosting

Zvážit konkurenci, pokud:

Potřebujete coding špičku - Opus 4.8 a 4.7 vedou
Pracujete v terminálu - GPT-5.5 drží Terminal-Bench
Chcete nejnižší cenu - DeepSeek V4-Flash je levnější

Co počkat:

Open-weights váhy a technický report (do deseti dnů)
Nezávislé testy od Artificial Analysis a BridgeBench
Ověření MSA výkonových tvrzení třetí stranou
Stabilita serveru a reálná dostupnost API pod zátěží

Závěr

M3 není coding lídr a marketingové superlativum o “jediném” modelu se třemi frontier vlastnostmi neobstojí při srovnání s MiMo. Co M3 nabízí, je zajímavá architektura MSA s reálnými úsporami compute při dlouhém kontextu, agresivní cena a tři dokumentované dlouhé běhy, které ukazují perzistenci srovnatelnou s frontier modely. CUDA běh s 9,4násobným zrychlením, kde M3 pokračoval dlouho po tom, co ostatní modely skončily, je konkrétní empirický signál.

Recepce v komunitě je smíšená. Vedle nadšení z otevřeného modelu s 1M kontextem a multimodalitou zaznívá i skepse - část uživatelů tvrdí, že v reálném použití je M3 pod úrovní DeepSeek V4-Pro, a opakuje se postřeh, že současný vzorec je závod v benchmarcích následovaný zveřejněním vah o týden později. Cenová kontroverze kolem osekaných Token Planů důvěře nepřidává.

Pro vibecoding.cz publikum to znamená test na konkrétní úloze, hlavně pokud kombinujete dlouhý kontext, multimodalitu a citlivost na cenu. Zvlášť zajímavý je slib udržení kvality při 1M kontextu - většina modelů dlouhý kontext inzeruje, ale nad 128K se rozpadá. Pokud MSA tohle skutečně zvládne na reálných repozitářích, je to relevantní pro multi-file refactoring. Skutečné hodnocení ale přijde, až budou venku váhy a nezávislá data. Do té doby je M3 slibný kandidát, ne ověřená volba.

Takže test připravuju!