M
Minimax 12. 2. 2026

MiniMax: MiniMax M2.5

minimax/minimax-m2.5

MiniMax M2.5 je vysoce specializovaný nástroj pro produktivitu, který exceluje tam, kde je potřeba generovat dlouhé, strukturované výstupy a řešit komplexní úlohy bez zásahu člověka.

Killer Feature Masivní výstupní okno 131k tokenů kombinované s vysokou úspěšností v SWE-Bench (80.2%).
Skryté riziko Vyšší cena za výstupní tokeny může při maximálním využití generativní kapacity nečekaně prodražit provoz.
$0.3 / 1M vstup
$1.2 / 1M výstup
205k kontext
131k max výstup
text text Produktivita a Office automatizaceAutonomní agentiGenerování kódu

📊 VibeCode skóre

48.4 / 100
Coding (váha 60 %) 35
Reasoning (váha 30 %) 66.1
Kontext (váha 10 %) 76.3

Spolehlivost medium. Coding složka pochází z BridgeBench Quality (agregát 7 sub-testů: UI, security, debugging, refactoring, hallucination, BS detection, reasoning). Reasoning složka z 3 benchmarků (GPQA Diamond, MMLU-Pro, HLE). Agents benchmarky (TAU-bench, MMAU) do skóre nezahrnujeme kvůli nízkému pokrytí napříč modely.

🧪 BridgeBench · nezávislý „vibe coding" benchmark

Quality
35
agregát 7 sub-testů
Vibe
35
celkový dojem
UI
57.1
generování UI
Security
16
detekce zranitelností
Debugging
67.6
ladění chyb
Refactoring
49.2
zlepšení kódu
Hallucination
59.4
odolnost vůči halucinacím
Reasoning
38.1
30 těžkých úloh (jiná škála)

Zdroj: bridgebench.ai/overall. BridgeBench sjednocuje 7 testů zaměřených na reálné programovací úlohy. Jeho Reasoning kategorie používá 30 velmi těžkých úloh a nelze ji přímo porovnávat s GPQA/MMLU.

🎯 Publikované benchmarky

Benchmark Kategorie Skóre Zdroj
SWE-bench Verified coding 80.2% ↗ provider
LiveCodeBench coding 79.21% ↗ nezávislý
GPQA Diamond reasoning 85.2% ↗ provider
MMLU-Pro reasoning 80.09% ↗ nezávislý
Humanity’s Last Exam reasoning 19.4% ↗ provider

Found official provider benchmarks on the MiniMax Hugging Face model card and independent evaluations from Vals AI. Scores for SWE-bench Verified, LiveCodeBench, GPQA Diamond, MMLU-Pro, and Humanities Last Exam were found. The model was evaluated on AIME 2025 rather than AIME 2024, so the AIME 2024 field is left null.

⚖️ Porovnání s konkurencí

Model Cenové srovnání Poznámka
Minimax MiniMax M2.5
← Právě prohlížíte
DeepSeek DeepSeek V3.2
Podobný vstup ($0.25 vs $0.30), ale 3x levnější výstup ($0.38 vs $1.20) DeepSeek je ekonomičtější volba pro obecné úlohy, MiniMax vede v délce generovaného výstupu a specializaci na Office formáty.
Gemini je dražší na vstupu ($0.50) i výstupu ($3.00) Gemini nabízí 5x větší kontextové okno (1M) a multimodalitu, MiniMax je však výrazně levnější a lepší v autonomním kódování.
MistralAI Devstral 2512
Devstral je výrazně levnější ($0.05/$0.22) Devstral je čistě kódovací specialista s nižší cenou, MiniMax nabízí širší uplatnění v administrativě a komplexním plánování.

🎯 Rozhodovací pomocník

Použij když...

  • Generování rozsáhlé dokumentace a reportů
  • Autonomní oprava chyb v repozitářích (SWE-Bench)
  • Hromadné zpracování Excel/Word souborů

Nepoužívej když...

  • Analýza obrázků a videa
  • Chatboty s krátkými odpověďmi (kvůli ceně výstupu)
  • Analýza extrémně dlouhých dokumentů nad 200k tokenů
Ideální pro:
Vývojáři autonomních agentůPodnikový sektor využívající MS OfficeData analytici

💪 Silné a slabé stránky

+ Silné stránky

Agentní kódování

Skóre 80,2 % v SWE-Bench Verified a 51,3 % v Multi-SWE-Bench řadí model mezi špičku v autonomním řešení softwarových problémů.

Generativní kapacita

Maximální výstup 131 072 tokenů umožňuje generovat celé reporty nebo rozsáhlé moduly kódu na jeden průchod, kde konkurence často končí na 4k-8k tokenech.

Office integrace

Unikátní trénink zaměřený na strukturu a logiku souborů Word, Excel a PowerPoint pro přímou aplikaci v administrativě.

Slabé stránky

Cena výstupu

Zatímco vstup je levný ($0.30), výstup ($1.20) je výrazně dražší než u modelů DeepSeek ($0.38) nebo Mistral ($0.22), což prodražuje dlouhé generování.

Multimodalita

Omezení pouze na text-to-text znevýhodňuje model oproti Gemini 3 nebo GPT-5.2 v úlohách vyžadujících vizuální analýzu UI.

Vstupní kontext

Kontext 204k tokenů je dostatečný, ale zaostává za 1M+ standardem u modelů Gemini 3 Flash, Claude Opus a Grok.

📝 Detailní popis

MiniMax-M2.5 je nejmodernější (SOTA) velký jazykový model navržený pro produktivitu v reálném světě. M2.5, trénovaný v rozmanité škále komplexních digitálních pracovních prostředí reálného světa, staví na odbornosti v kódování modelu M2.1 a rozšiřuje se do obecné kancelářské práce, dosahuje plynulosti v generování a ovládání souborů Word, Excel a Powerpoint, přepínání kontextu mezi různými softwarovými prostředími a spolupráci mezi různými týmy agentů a lidí. S výsledky 80,2 % na SWE-Bench Verified, 51,3 % na Multi-SWE-Bench a 76,3 % na BrowseComp je M2.5 také efektivnější z hlediska tokenů než předchozí generace, protože byl trénován k optimalizaci svých akcí a výstupů prostřednictvím plánování.

Unikátní charakteristiky

MiniMax M2.5 se specializuje na ‘agentní’ pracovní toky s extrémní kapacitou pro generování výstupu (až 131 072 tokenů), což je násobně více než u standardních modelů. Model je specificky dotrénován pro manipulaci se soubory Microsoft Office a vykazuje vysokou úspěšnost v plánování komplexních úloh, což potvrzuje skóre 80,2 % v SWE-Bench Verified.

Silné stránky

Agentní kódování

Skóre 80,2 % v SWE-Bench Verified a 51,3 % v Multi-SWE-Bench řadí model mezi špičku v autonomním řešení softwarových problémů.

Generativní kapacita

Maximální výstup 131 072 tokenů umožňuje generovat celé reporty nebo rozsáhlé moduly kódu na jeden průchod, kde konkurence často končí na 4k-8k tokenech.

Office integrace

Unikátní trénink zaměřený na strukturu a logiku souborů Word, Excel a PowerPoint pro přímou aplikaci v administrativě.

Slabé stránky

Cena výstupu

Zatímco vstup je levný ($0.30), výstup ($1.20) je výrazně dražší než u modelů DeepSeek ($0.38) nebo Mistral ($0.22), což prodražuje dlouhé generování.

Multimodalita

Omezení pouze na text-to-text znevýhodňuje model oproti Gemini 3 nebo GPT-5.2 v úlohách vyžadujících vizuální analýzu UI.

Vstupní kontext

Kontext 204k tokenů je dostatečný, ale zaostává za 1M+ standardem u modelů Gemini 3 Flash, Claude Opus a Grok.

🔗 Další modely od Minimax