G
Google 19. 2. 2026

Google: Gemini 3.1 Pro Preview

google/gemini-3.1-pro-preview

Gemini 3.1 Pro Preview je silnou volbou pro podnikové nasazení vyžadující hluboké uvažování a práci s kódem, kde je cena Claude Sonnet příliš vysoká, ale schopnosti levných modelů nestačí.

Killer Feature Kombinace pokročilého 'reasoning' myšlení s nativním vstupem videa a audia v 1M kontextu.
Skryté riziko Ztráta kontextu uvažování (reasoning tokens) při nesprávné implementaci tool-use cyklů.
$2 / 1M vstup
$12 / 1M výstup
1.0M kontext
66k max výstup
audiofileimagetextvideo text Software Engineering (SWE)Agentní systémyMultimodální reasoning

📊 VibeCode skóre

75.6 / 100
Coding (váha 60 %) 66.4
Reasoning (váha 30 %) 85.9
Kontext (váha 10 %) 99.7

Spolehlivost medium. Coding složka pochází z BridgeBench Quality (agregát 7 sub-testů: UI, security, debugging, refactoring, hallucination, BS detection, reasoning). Reasoning složka z 3 benchmarků (GPQA Diamond, MMLU-Pro, HLE). Agents benchmarky (TAU-bench, MMAU) do skóre nezahrnujeme kvůli nízkému pokrytí napříč modely.

🧪 BridgeBench · nezávislý „vibe coding" benchmark

Quality
66.4
agregát 7 sub-testů
Vibe
64.1
celkový dojem
UI
52.9
generování UI
Security
85.2
detekce zranitelností
Debugging
85.9
ladění chyb
Refactoring
70
zlepšení kódu
Hallucination
79.1
odolnost vůči halucinacím
BS detection
66.5
odhalení nesmyslů
Reasoning
34.3
30 těžkých úloh (jiná škála)
Speed
122 tok/s
tokenová rychlost

Zdroj: bridgebench.ai/overall. BridgeBench sjednocuje 7 testů zaměřených na reálné programovací úlohy. Jeho Reasoning kategorie používá 30 velmi těžkých úloh a nelze ji přímo porovnávat s GPQA/MMLU.

🎯 Publikované benchmarky

Benchmark Kategorie Skóre Zdroj
SWE-bench Verified coding 80.6% ↗ provider
LiveCodeBench coding 61% ↗ nezávislý
GPQA Diamond reasoning 94.3% ↗ provider
MMLU reasoning 90.4% ↗ nezávislý
Humanity’s Last Exam reasoning 44.4% ↗ nezávislý

Found official provider scores (from the Google DeepMind model card) for SWE-bench Verified and GPQA Diamond, as well as independent evaluations for LiveCodeBench, MMLU, and Humanity's Last Exam. Aider Polyglot, AIME 2024, and TAU-bench scores were not publicly available for this specific preview build.

⚖️ Porovnání s konkurencí

Model Cenové srovnání Poznámka
Google Gemini 3.1 Pro Preview
← Právě prohlížíte
Anthropic Claude Sonnet 4.6
Gemini je o 33 % levnější na vstupu a o 20 % levnější na výstupu Sonnet 4.6 je přímý konkurent v oblasti reasoningu; Gemini 3.1 kontruje lepší cenou a nativní prací s videem/audiem.
OpenAI GPT-5.2 Codex
Srovnatelná cena (Gemini +$0.25 vstup, -$2.00 výstup) GPT-5.2 Codex je specialista na kód; Gemini nabízí 2,5x větší kontext (1M vs 400k) a širší multimodalitu.
Gemini je 10x dražší na vstupu Grok nabízí dvojnásobný kontext (2M) za zlomek ceny, ale Gemini 3.1 cílí na vyšší přesnost v komplexním uvažování (reasoning).

🎯 Rozhodovací pomocník

Použij když...

  • Autonomní programování a debugging
  • Analýza dlouhých videí a audio záznamů
  • Komplexní finanční analýzy nad tabulkami

Nepoužívej když...

  • Jednoduché chatboty (zbytečně drahé)
  • Aplikace vyžadující extrémně nízkou latenci (real-time)
Ideální pro:
Vývojáři softwaruAI inženýři stavějící agentyAnalytici multimediálního obsahu

💪 Silné a slabé stránky

+ Silné stránky

Softwarové inženýrství

Model vykazuje měřitelné zlepšení v SWE benchmarkách a reálných kódovacích prostředích oproti sérii 3.0.

Multimodalita

Schopnost zpracovávat video, audio a soubory v jednom kontextu (až 1M tokenů) bez nutnosti externích transkripčních nástrojů.

Agentní spolehlivost

Vylepšená orchestrace nástrojů (tool orchestration) a stabilita při dlouhodobých úlohách.

Slabé stránky

Komplexita integrace

Nutnost specifického zacházení s 'reasoning tokens' při multi-turn volání nástrojů, což zvyšuje nároky na implementaci.

Cena oproti 'fast' modelům

S cenou $2.00/1M je výrazně dražší než vysoce výkonné modely od X-AI nebo DeepSeek (cca 10x dražší).

📝 Detailní popis

Gemini 3.1 Pro Preview je průkopnický model pro usuzování od Googlu, který přináší vylepšený výkon v softwarovém inženýrství, zvýšenou spolehlivost agentů a efektivnější využití tokenů v komplexních pracovních postupech. Staví na multimodálním základu řady Gemini 3 a kombinuje vysoce přesné usuzování napříč textem, obrázky, videem, zvukem a kódem s kontextovým oknem o velikosti 1M tokenů. Při použití vícekolového volání nástrojů je nutné zachovat detaily usuzování, viz naše dokumentace zde: https://openrouter.ai/docs/use-cases/reasoning-tokens#preserving-reasoning. Aktualizace 3.1 přináší měřitelné zisky v SWE benchmarkách a reálných vývojových prostředích, spolu se silnější autonomní exekucí úloh ve strukturovaných doménách, jako jsou finance a pracovní postupy založené na tabulkách.

Gemini 3.1 Pro Preview, navržený pro pokročilý vývoj a agentní systémy, zlepšuje dlouhodobou stabilitu a orchestraci nástrojů a zároveň zvyšuje efektivitu tokenů. Zavádí novou střední úroveň myšlení pro lepší vyvážení nákladů, rychlosti a výkonu. Model vyniká v agentním kódování, strukturovaném plánování, multimodální analýze a automatizaci pracovních postupů, díky čemuž je vhodný pro autonomní agenty, finanční modelování, automatizaci tabulek a podnikové úlohy s vysokým kontextem.

Unikátní charakteristiky

Gemini 3.1 Pro Preview je ‘frontier’ model zaměřený na pokročilé uvažování (reasoning) a softwarové inženýrství, který integruje nativní zpracování videa, audia a textu v rámci 1M kontextového okna. Model zavádí novou úroveň ‘medium thinking’ pro vyvážení nákladů a rychlosti při složitých agentních úlohách.

Silné stránky

Softwarové inženýrství

Model vykazuje měřitelné zlepšení v SWE benchmarkách a reálných kódovacích prostředích oproti sérii 3.0.

Multimodalita

Schopnost zpracovávat video, audio a soubory v jednom kontextu (až 1M tokenů) bez nutnosti externích transkripčních nástrojů.

Agentní spolehlivost

Vylepšená orchestrace nástrojů (tool orchestration) a stabilita při dlouhodobých úlohách.

Slabé stránky

Komplexita integrace

Nutnost specifického zacházení s ‘reasoning tokens’ při multi-turn volání nástrojů, což zvyšuje nároky na implementaci.

Cena oproti ‘fast’ modelům

S cenou $2.00/1M je výrazně dražší než vysoce výkonné modely od X-AI nebo DeepSeek (cca 10x dražší).

🔗 Další modely od Google