Minimax 12. 2. 2026

MiniMax: MiniMax M2.5

Item: MiniMax: MiniMax M2.5
Author: Patrick Zandl

minimax/minimax-m2.5

MiniMax M2.5 je vysoce specializovaný nástroj pro produktivitu, který exceluje tam, kde je potřeba generovat dlouhé, strukturované výstupy a řešit komplexní úlohy bez zásahu člověka.

✦

Killer Feature Masivní výstupní okno 131k tokenů kombinované s vysokou úspěšností v SWE-Bench (80.2%).

⚠

Skryté riziko Vyšší cena za výstupní tokeny může při maximálním využití generativní kapacity nečekaně prodražit provoz.

$0.3 / 1M vstup

$1.2 / 1M výstup

205k kontext

131k max výstup

Vyzkoušet na OpenRouter

text text Produktivita a Office automatizaceAutonomní agentiGenerování kódu

📊 VibeCode skóre

48.4 / 100

Coding (váha 60 %) 35

Reasoning (váha 30 %) 66.1

Kontext (váha 10 %) 76.3

Spolehlivost medium. Coding složka pochází z BridgeBench Quality (agregát 7 sub-testů: UI, security, debugging, refactoring, hallucination, BS detection, reasoning). Reasoning složka z 3 benchmarků (GPQA Diamond, MMLU-Pro, HLE). Agents benchmarky (TAU-bench, MMAU) do skóre nezahrnujeme kvůli nízkému pokrytí napříč modely.

🧪 BridgeBench · nezávislý „vibe coding" benchmark

Quality

agregát 7 sub-testů

Vibe

celkový dojem

57.1

generování UI

Security

detekce zranitelností

Debugging

67.6

ladění chyb

Refactoring

49.2

zlepšení kódu

Hallucination

59.4

odolnost vůči halucinacím

Reasoning

38.1

30 těžkých úloh (jiná škála)

Zdroj: bridgebench.ai/overall. BridgeBench sjednocuje 7 testů zaměřených na reálné programovací úlohy. Jeho Reasoning kategorie používá 30 velmi těžkých úloh a nelze ji přímo porovnávat s GPQA/MMLU.

🎯 Publikované benchmarky

Benchmark	Kategorie	Skóre	Zdroj
SWE-bench Verified	coding	80.2%	↗ provider
LiveCodeBench	coding	79.21%	↗ nezávislý
GPQA Diamond	reasoning	85.2%	↗ provider
MMLU-Pro	reasoning	80.09%	↗ nezávislý
Humanity’s Last Exam	reasoning	19.4%	↗ provider

Found official provider benchmarks on the MiniMax Hugging Face model card and independent evaluations from Vals AI. Scores for SWE-bench Verified, LiveCodeBench, GPQA Diamond, MMLU-Pro, and Humanities Last Exam were found. The model was evaluated on AIME 2025 rather than AIME 2024, so the AIME 2024 field is left null.

⚖️ Porovnání s konkurencí

Model	Cenové srovnání	Poznámka
Minimax MiniMax M2.5	← Právě prohlížíte	—
DeepSeek DeepSeek V3.2	Podobný vstup ($0.25 vs $0.30), ale 3x levnější výstup ($0.38 vs $1.20)	DeepSeek je ekonomičtější volba pro obecné úlohy, MiniMax vede v délce generovaného výstupu a specializaci na Office formáty.
Google Gemini 3 Flash Preview	Gemini je dražší na vstupu ($0.50) i výstupu ($3.00)	Gemini nabízí 5x větší kontextové okno (1M) a multimodalitu, MiniMax je však výrazně levnější a lepší v autonomním kódování.
MistralAI Devstral 2512	Devstral je výrazně levnější ($0.05/$0.22)	Devstral je čistě kódovací specialista s nižší cenou, MiniMax nabízí širší uplatnění v administrativě a komplexním plánování.

🎯 Rozhodovací pomocník

✓

Použij když...

Generování rozsáhlé dokumentace a reportů
Autonomní oprava chyb v repozitářích (SWE-Bench)
Hromadné zpracování Excel/Word souborů

✗

Nepoužívej když...

Analýza obrázků a videa
Chatboty s krátkými odpověďmi (kvůli ceně výstupu)
Analýza extrémně dlouhých dokumentů nad 200k tokenů

Ideální pro:

Vývojáři autonomních agentůPodnikový sektor využívající MS OfficeData analytici

💪 Silné a slabé stránky

+ Silné stránky

Agentní kódování

Skóre 80,2 % v SWE-Bench Verified a 51,3 % v Multi-SWE-Bench řadí model mezi špičku v autonomním řešení softwarových problémů.

Generativní kapacita

Maximální výstup 131 072 tokenů umožňuje generovat celé reporty nebo rozsáhlé moduly kódu na jeden průchod, kde konkurence často končí na 4k-8k tokenech.

Office integrace

Unikátní trénink zaměřený na strukturu a logiku souborů Word, Excel a PowerPoint pro přímou aplikaci v administrativě.

− Slabé stránky

Cena výstupu

Zatímco vstup je levný ($0.30), výstup ($1.20) je výrazně dražší než u modelů DeepSeek ($0.38) nebo Mistral ($0.22), což prodražuje dlouhé generování.

Multimodalita

Omezení pouze na text-to-text znevýhodňuje model oproti Gemini 3 nebo GPT-5.2 v úlohách vyžadujících vizuální analýzu UI.

Vstupní kontext

Kontext 204k tokenů je dostatečný, ale zaostává za 1M+ standardem u modelů Gemini 3 Flash, Claude Opus a Grok.

📝 Detailní popis

MiniMax-M2.5 je nejmodernější (SOTA) velký jazykový model navržený pro produktivitu v reálném světě. M2.5, trénovaný v rozmanité škále komplexních digitálních pracovních prostředí reálného světa, staví na odbornosti v kódování modelu M2.1 a rozšiřuje se do obecné kancelářské práce, dosahuje plynulosti v generování a ovládání souborů Word, Excel a Powerpoint, přepínání kontextu mezi různými softwarovými prostředími a spolupráci mezi různými týmy agentů a lidí. S výsledky 80,2 % na SWE-Bench Verified, 51,3 % na Multi-SWE-Bench a 76,3 % na BrowseComp je M2.5 také efektivnější z hlediska tokenů než předchozí generace, protože byl trénován k optimalizaci svých akcí a výstupů prostřednictvím plánování.

Unikátní charakteristiky

MiniMax M2.5 se specializuje na ‘agentní’ pracovní toky s extrémní kapacitou pro generování výstupu (až 131 072 tokenů), což je násobně více než u standardních modelů. Model je specificky dotrénován pro manipulaci se soubory Microsoft Office a vykazuje vysokou úspěšnost v plánování komplexních úloh, což potvrzuje skóre 80,2 % v SWE-Bench Verified.

Silné stránky

Agentní kódování