Google 19. 2. 2026

Google: Gemini 3.1 Pro Preview

Item: Google: Gemini 3.1 Pro Preview
Author: Patrick Zandl

google/gemini-3.1-pro-preview

Gemini 3.1 Pro Preview je silnou volbou pro podnikové nasazení vyžadující hluboké uvažování a práci s kódem, kde je cena Claude Sonnet příliš vysoká, ale schopnosti levných modelů nestačí.

✦

Killer Feature Kombinace pokročilého 'reasoning' myšlení s nativním vstupem videa a audia v 1M kontextu.

⚠

Skryté riziko Ztráta kontextu uvažování (reasoning tokens) při nesprávné implementaci tool-use cyklů.

$2 / 1M vstup

$12 / 1M výstup

1.0M kontext

66k max výstup

Vyzkoušet na OpenRouter

audiofileimagetextvideo text Software Engineering (SWE)Agentní systémyMultimodální reasoning

📊 VibeCode skóre

75.6 / 100

Coding (váha 60 %) 66.4

Reasoning (váha 30 %) 85.9

Kontext (váha 10 %) 99.7

Spolehlivost medium. Coding složka pochází z BridgeBench Quality (agregát 7 sub-testů: UI, security, debugging, refactoring, hallucination, BS detection, reasoning). Reasoning složka z 3 benchmarků (GPQA Diamond, MMLU-Pro, HLE). Agents benchmarky (TAU-bench, MMAU) do skóre nezahrnujeme kvůli nízkému pokrytí napříč modely.

🧪 BridgeBench · nezávislý „vibe coding" benchmark

Quality

66.4

agregát 7 sub-testů

Vibe

64.1

celkový dojem

52.9

generování UI

Security

85.2

detekce zranitelností

Debugging

85.9

ladění chyb

Refactoring

zlepšení kódu

Hallucination

79.1

odolnost vůči halucinacím

BS detection

66.5

odhalení nesmyslů

Reasoning

34.3

30 těžkých úloh (jiná škála)

Speed

122 tok/s

tokenová rychlost

Zdroj: bridgebench.ai/overall. BridgeBench sjednocuje 7 testů zaměřených na reálné programovací úlohy. Jeho Reasoning kategorie používá 30 velmi těžkých úloh a nelze ji přímo porovnávat s GPQA/MMLU.

🎯 Publikované benchmarky

Benchmark	Kategorie	Skóre	Zdroj
SWE-bench Verified	coding	80.6%	↗ provider
LiveCodeBench	coding	61%	↗ nezávislý
GPQA Diamond	reasoning	94.3%	↗ provider
MMLU	reasoning	90.4%	↗ nezávislý
Humanity’s Last Exam	reasoning	44.4%	↗ nezávislý

Found official provider scores (from the Google DeepMind model card) for SWE-bench Verified and GPQA Diamond, as well as independent evaluations for LiveCodeBench, MMLU, and Humanity's Last Exam. Aider Polyglot, AIME 2024, and TAU-bench scores were not publicly available for this specific preview build.

⚖️ Porovnání s konkurencí

Model	Cenové srovnání	Poznámka
Google Gemini 3.1 Pro Preview	← Právě prohlížíte	—
Anthropic Claude Sonnet 4.6	Gemini je o 33 % levnější na vstupu a o 20 % levnější na výstupu	Sonnet 4.6 je přímý konkurent v oblasti reasoningu; Gemini 3.1 kontruje lepší cenou a nativní prací s videem/audiem.
OpenAI GPT-5.2 Codex	Srovnatelná cena (Gemini +$0.25 vstup, -$2.00 výstup)	GPT-5.2 Codex je specialista na kód; Gemini nabízí 2,5x větší kontext (1M vs 400k) a širší multimodalitu.
X-AI Grok 4.1 Fast	Gemini je 10x dražší na vstupu	Grok nabízí dvojnásobný kontext (2M) za zlomek ceny, ale Gemini 3.1 cílí na vyšší přesnost v komplexním uvažování (reasoning).

🎯 Rozhodovací pomocník

✓

Použij když...

Autonomní programování a debugging
Analýza dlouhých videí a audio záznamů
Komplexní finanční analýzy nad tabulkami

✗

Nepoužívej když...

Jednoduché chatboty (zbytečně drahé)
Aplikace vyžadující extrémně nízkou latenci (real-time)

Ideální pro:

Vývojáři softwaruAI inženýři stavějící agentyAnalytici multimediálního obsahu

💪 Silné a slabé stránky

+ Silné stránky

Softwarové inženýrství

Model vykazuje měřitelné zlepšení v SWE benchmarkách a reálných kódovacích prostředích oproti sérii 3.0.

Multimodalita

Schopnost zpracovávat video, audio a soubory v jednom kontextu (až 1M tokenů) bez nutnosti externích transkripčních nástrojů.

Agentní spolehlivost

Vylepšená orchestrace nástrojů (tool orchestration) a stabilita při dlouhodobých úlohách.

− Slabé stránky

Komplexita integrace

Nutnost specifického zacházení s 'reasoning tokens' při multi-turn volání nástrojů, což zvyšuje nároky na implementaci.

Cena oproti 'fast' modelům

S cenou $2.00/1M je výrazně dražší než vysoce výkonné modely od X-AI nebo DeepSeek (cca 10x dražší).

📝 Detailní popis

Gemini 3.1 Pro Preview je průkopnický model pro usuzování od Googlu, který přináší vylepšený výkon v softwarovém inženýrství, zvýšenou spolehlivost agentů a efektivnější využití tokenů v komplexních pracovních postupech. Staví na multimodálním základu řady Gemini 3 a kombinuje vysoce přesné usuzování napříč textem, obrázky, videem, zvukem a kódem s kontextovým oknem o velikosti 1M tokenů. Při použití vícekolového volání nástrojů je nutné zachovat detaily usuzování, viz naše dokumentace zde: https://openrouter.ai/docs/use-cases/reasoning-tokens#preserving-reasoning. Aktualizace 3.1 přináší měřitelné zisky v SWE benchmarkách a reálných vývojových prostředích, spolu se silnější autonomní exekucí úloh ve strukturovaných doménách, jako jsou finance a pracovní postupy založené na tabulkách.

Gemini 3.1 Pro Preview, navržený pro pokročilý vývoj a agentní systémy, zlepšuje dlouhodobou stabilitu a orchestraci nástrojů a zároveň zvyšuje efektivitu tokenů. Zavádí novou střední úroveň myšlení pro lepší vyvážení nákladů, rychlosti a výkonu. Model vyniká v agentním kódování, strukturovaném plánování, multimodální analýze a automatizaci pracovních postupů, díky čemuž je vhodný pro autonomní agenty, finanční modelování, automatizaci tabulek a podnikové úlohy s vysokým kontextem.

Unikátní charakteristiky

Gemini 3.1 Pro Preview je ‘frontier’ model zaměřený na pokročilé uvažování (reasoning) a softwarové inženýrství, který integruje nativní zpracování videa, audia a textu v rámci 1M kontextového okna. Model zavádí novou úroveň ‘medium thinking’ pro vyvážení nákladů a rychlosti při složitých agentních úlohách.

Silné stránky

Softwarové inženýrství