Dlouho očekávaná preview verze čínského DeepSeek V4 je venku. A je to pátý čínský špičkový model za tři týdny. Přichází po Kimi K2.6, Qwen 3.6-Max-Preview, MiMo V2.5-Pro a GLM-5.1. Ve stejném období vydaly americké laboratoře Opus 4.7 a GPT-5.5. Kadence čínských vydání nad americkou jednoznačně převažuje.
Jelikož zprávy jsou zatím kusé a není k dispozici mnoho nezávislých testů na tyto čínské modely, dovolím si jen shrnující komentář a preview modelů, než vyjdou testy a než si přes víkend stihnu udělat osobní zkušenost.
Deepseek V4 je totiž jiný příběh, než naznačovaly prosakující zvěsti. Místo jediného modelu DeepSeek vydal dva modely s desetinásobkem rozdílu v ceně a výrazně odlišnou pozicí na trhu:
- V4-Flash: bořič kategorie s cenou $0,14 / $0,28 za milion tokenů, výkonnostní třída Sonnet
- V4-Pro: premium open-source model, cena $1,74 / $3,48 za milion tokenů, výkonnostní třída Opus 4.6
V4-Pro není univerzálním špičkovým modelem. Vede v algoritmickém kodingu a znalostních benchmarcích, ale zaostává v agentním kodingu, což je právě nejdůležitější kategorie pro reálný vývojářský workflow v roce 2026. Pro české publikum, které uvažuje o migraci z Anthropic nebo OpenAI na čínský stack, to znamená pečlivě zvažovat, který V4 dává smysl pro konkrétní use case.
Pozor, tento článek používá oficiální data z oznámení DeepSeek na WeChat, Hugging Face model card a oficiální ceníku. Všechny benchmarky v tomto článku jsou od DeepSeeku. Strukturální analýza s nezávislými benchmarky od Artificial Analysis a LMSYS vyjde na vibecoding.cz příští týden, až budou publikovány.
Co DeepSeek V4 skutečně je
Dvě varianty s úplně odlišnou pozicí
| Parametr | V4-Flash | V4-Pro |
|---|---|---|
| Celkové parametry | 284 miliard | 1,6 bilionu |
| Aktivované parametry (MoE) | 13 miliard | 49 miliard |
| Pretraining tokens | 32T | 33T |
| Kontextové okno | 1M | 1M |
| Max output | 384K | 384K |
| Thinking modes | non-thinking + thinking | non-thinking + thinking |
| Reasoning effort | high / max | high / max |
| Open-source váhy | ✓ | ✓ |
| API | ✓ | ✓ |
Klíčové: obě varianty mají 1M kontextové okno. DeepSeek explicitně říká, že 1M kontext je default pro všechny jeho oficiální služby. Není to premiová funkce za příplatek.
Oficiální ceny
| Tokenů | V4-Flash | V4-Pro |
|---|---|---|
| 1M input tokens (cache hit) | $0,028 | $0,145 |
| 1M input tokens (cache miss) | $0,14 | $1,74 |
| 1M output tokens | $0,28 | $3,48 |
V4-Flash je 12× levnější než V4-Pro na výstupu. To je extrémní cenové rozpětí. V4-Pro je sám o sobě stále mid-range (mezi GPT-5.5 a Kimi K2.6), ale V4-Flash je jinou kategorii - prakticky za cenu Haiku 4.5, s výkonem Sonnetu.
Architektonická inovace
DSA (DeepSeek Sparse Attention) s token-dimension compression je hlavní technická novinka. Na 1M kontextu vyžaduje V4-Pro pouze 27 % FLOPs pro single-token inferenci a 10 % KV cache oproti DeepSeek V3.2. To je 4× nižší compute a 10× nižší paměťová stopa pro dlouhý kontext.
Další novinka: Manifold-Constrained Hyper-Connections (mHC) stabilizují trénink bilionového MoE modelu.
FP4 + FP8 mixed precision: MoE expert parametry používají FP4, ostatní parametry FP8. Umožňuje lokální běh na 2× RTX 4090 v INT8 nebo 1× RTX 5090 v INT4 pro V4-Flash.
API compatibility: zásadní pro vývojáře
DeepSeek API podporuje oba standardní rozhraní:
- OpenAI Chat Completions:
https://api.deepseek.com - Anthropic API interface:
https://api.deepseek.com/anthropic
To znamená, že existující Claude Code workflow lze přepnout na V4 drop-in - pouze změnou base URL a model ID. Modely v4 jsou explicitně optimalizované pro Claude Code, OpenClaw, OpenCode a CodeBuddy.
Důležité upozornění pro současné uživatele DeepSeek: staré model IDs deepseek-chat a deepseek-reasoner budou deaktivovány 24. července 2026 (za 3 měsíce). Aktuálně mapují na V4-Flash non-thinking a thinking mode. Migrace je nutná.
Benchmarková data: čeho si všimnout
Všechna čísla jsou DeepSeek self-reports. V tabulce jsou všechny modely na maximum reasoning effort (Max / xHigh / High / Thinking), tedy férové srovnání.
Knowledge & Reasoning (vybrané benchmarky)
| Benchmark | V4-Pro | V4-Flash | K2.6 | GLM-5.1 | Opus 4.6 | GPT-5.4 | Gemini 3.1 Pro |
|---|---|---|---|---|---|---|---|
| MMLU-Pro | 87,5 | 86,2 | 87,1 | 86,0 | 89,1 | 87,5 | 91,0 |
| SimpleQA-Verified | 57,9 | 34,1 | 36,9 | 38,1 | 46,2 | 45,3 | 75,6 |
| Chinese-SimpleQA | 84,4 | 78,9 | 75,9 | 75,0 | 76,2 | 76,8 | 85,9 |
| GPQA Diamond | 90,1 | 88,1 | 90,5 | 86,2 | 91,3 | 93,0 | 94,3 |
| HLE | 37,7 | 34,8 | 36,4 | 34,7 | 40,0 | 39,8 | 44,4 |
| LiveCodeBench | 93,5 | 91,6 | 89,6 | — | 88,8 | — | 91,7 |
| Codeforces (rating) | 3206 | 3052 | — | — | — | 3168 | 3052 |
| HMMT 2026 Feb | 95,2 | 94,8 | 92,7 | 89,4 | 96,2 | 97,7 | 94,7 |
| IMOAnswerBench | 89,8 | 88,4 | 86,0 | 83,8 | 75,3 | 91,4 | 81,0 |
| Apex | 38,3 | 33,0 | 24,0 | 11,5 | 34,5 | 54,1 | 60,9 |
Long Context
| Benchmark | V4-Pro | V4-Flash | Opus 4.6 | Gemini 3.1 Pro |
|---|---|---|---|---|
| MRCR 1M | 83,5 | 78,7 | 92,9 | 76,3 |
| CorpusQA 1M | 62,0 | 60,5 | 71,7 | 53,8 |
Agentic
| Benchmark | V4-Pro | V4-Flash | K2.6 | GLM-5.1 | Opus 4.6 | GPT-5.4 | Gemini 3.1 Pro |
|---|---|---|---|---|---|---|---|
| Terminal Bench 2.0 | 67,9 | 56,9 | 66,7 | 63,5 | 65,4 | 75,1 | 68,5 |
| SWE Verified | 80,6 | 79,0 | 80,2 | — | 80,8 | — | 80,6 |
| SWE Pro | 55,4 | 52,6 | 58,6 | 58,4 | 57,3 | 57,7 | 54,2 |
| SWE Multilingual | 76,2 | 73,3 | 76,7 | 73,3 | 77,5 | — | — |
| BrowseComp | 83,4 | 73,2 | 83,2 | 79,3 | 83,7 | 82,7 | 85,9 |
| HLE w/tools | 48,2 | 45,1 | 54,0 | 50,4 | 53,1 | 52,0 | 51,6 |
| GDPval-AA (Elo) | 1554 | 1395 | 1482 | 1535 | 1619 | 1674 | 1314 |
| MCPAtlas Public | 73,6 | 69,0 | 66,6 | 71,8 | 73,8 | 67,2 | 69,2 |
| Toolathlon | 51,8 | 47,8 | 50,0 | 40,7 | 47,2 | 54,6 | 48,8 |
Co z tabulky plyne
V4-Pro-Max vede (nebo remizuje) v:
- Algoritmické coding (Codeforces rating 3206, #1)
- LiveCodeBench 93,5 (#1)
- IMOAnswerBench 89,8 (#1 mezi open-source)
- Apex Shortlist 90,2 (#1)
- Chinese-SimpleQA 84,4 (mezi open-source nedostižné)
- SimpleQA-Verified 57,9 (mezi open-source dominantní)
V4-Pro-Max zaostává v:
- SWE Pro 55,4 (pátý místo, za K2.6, GLM-5.1, Opus 4.6, GPT-5.4)
- Terminal Bench 2.0 67,9 (za GPT-5.4 o 7,2 bodu)
- HLE w/tools 48,2 (za K2.6 o 5,8 bodu, za Opus 4.6 o 4,9)
- GDPval-AA Elo 1554 (za GPT-5.4 o 120, za Opus 4.6 o 65)
- Apex 38,3 (za Gemini 3.1 Pro o 22,6 bodu)
- MRCR 1M 83,5 (za Opus 4.6 o 9,4 bodu)
V4-Flash-Max profil:
- Na většině benchmarků jen 3-5 bodů za V4-Pro
- Na některých dramaticky zaostává (SimpleQA-Verified 34,1 vs 57,9 = rozdíl 23,8 bodů)
- Za desetinu ceny V4-Pro
Co říká DeepSeek sám
Zajímavá je poctivá sebereflexe v oznámení. DeepSeek explicitně uvádí:
“V4-Pro Agentic Coding už dosáhl nejlepší úrovně mezi open-source modely. Podle interních zaměstnanců, kteří V4 používají, je uživatelský zážitek lepší než Sonnet 4.5, kvalita výstupu se blíží Opus 4.6 v non-thinking módu, ale stále je jistá mezera vůči Opus 4.6 v thinking módu.”
To je vzácně přesné sebehodnocení. A benchmarková data tuto sebereflexi potvrzují. V4-Pro je pod Opus 4.6 Max na většině agentních benchmarků, ale srovnatelný s non-thinking režimem.
A zásadní upozornění: V oznámení se nikde necituje srovnání s Opus 4.7 nebo GPT-5.5. Tabulka v benchmarcích srovnává s Opus 4.6 a GPT-5.4. To je pochopitelné - Opus 4.7 vyšel před 8 dny, GPT-5.5 před den. Pro reálné srovnání s aktuálním frontier je potřeba počkat na nezávislé testy.
Co to znamená pro praktický workflow
V4-Flash: zatím nejzajímavější průlom široko daleko
Za cenu $0,14 / $0,28 (cache miss) je V4-Flash 5× levnější než Kimi K2.6 ($0,60 / $3,00) a 20× levnější než Opus 4.7 ($5 / $25) na vstupu. Výstup je pro Flash 9× levnější než K2.6 a 89× levnější než Opus 4.7.
Benchmarkově je V4-Flash v ligě Sonnet 4.5 - ne frontier, ale solidní pracovní model. Pro:
- Vysokoobjemové produkční workflow (RAG, batch processing, customer support): Flash je rozumná první volba
- Refactoring a generování kódu na jednodušších úlohách: 91,6 % LiveCodeBench je silné číslo
- Dlouhé kontexty (1M s 78,7 % MRCR): pro většinu produkčních úloh stačí
- Self-hosting: lokálně běží na 2× RTX 4090 v INT8
V4-Pro: specializovaný, ne univerzální
V4-Pro dává smysl pro:
- Algoritmické kódovací úlohy (competitive programming, algoritmický design): Codeforces rating 3206 je reálně nejvyšší mezi veřejně dostupnými modely
- Čínsko-jazyčné workflow: Chinese-SimpleQA 84,4 je výrazně nad ostatními
- Matematika a STEM: IMOAnswerBench 89,8, HMMT 95,2 - solid frontier výkon
- Scénáře s velkou citlivostí na cenu, kde Opus 4.7 je ekonomicky nedostupný: V4-Pro za $1,74 / $3,48 je 3× levnější než Opus 4.7
V4-Pro nedává smysl pro:
- Agentní coding: SWE Pro 55,4 je páté místo. Pokud pracuješ v Cursor nebo Claude Code na reálných engineering úlohách, K2.6 nebo GLM-5.1 jsou lepší (a levnější) volby.
- Terminal a shell workflow: GPT-5.5 dominuje na Terminal Bench s 82,7 % (Opus 4.7 69,4 %, V4-Pro 67,9 %)
- Enterprise regulovaná prostředí: Čínský původ + Huawei inference hardware = compliance riziko
- Dlouhý kontext přes 500K tokens: Opus 4.6 zůstává neporažen na MRCR 1M
Kompatibilita API: praktický hack týdne
Oficiální podpora Anthropic API rozhraní na https://api.deepseek.com/anthropic znamená, že Claude Code workflow lze testovat s V4 za 2 minuty:
export ANTHROPIC_BASE_URL="https://api.deepseek.com/anthropic"
export ANTHROPIC_AUTH_TOKEN="your-deepseek-key"
claude --model deepseek-v4-flash
Pro vývojáře s pre-existujícími Claude Code prompty a MCP integracemi je tohle nejjednodušší migrace v historii. Žádný code rewrite, žádná prompt adaptace. Jen jiný endpoint.
Pozor: ne všechna Claude Code funkcionality se přeloží 1:1. Task budgets, advisor tool a specifické Anthropic features jsou vázané na Anthropic infrastructure. Základní kódovací workflow ale funguje.
Co dělat teď
Udělat dnes nebo zítra:
- Stáhnout API key z platform.deepseek.com (free tier obvykle dostupný)
- Otestovat V4-Flash na 2-3 reálných úlohách z tvého workflow
- Porovnat výstup s tvým aktuálním default modelem
- Pokud používáš Claude Code, přepnout base URL na DeepSeek Anthropic endpoint a otestovat
Udělat tento týden:
- Spustit V4-Flash na batch workflow (RAG, hromadná klasifikace, doc processing) a změřit náklady
- Pro V4-Pro rozhodnout: pokud tvůj workflow padá do jeho silných kategorií (algoritmické coding, Chinese content, matematika), testovat ho. Pokud je to general engineering, zůstat u Opus 4.7 nebo K2.6.
Počkat na:
- Artificial Analysis Intelligence Index pro V4 (typicky 3-7 dnů po vydání)
- LMSYS Arena rating
- Nezávislou verifikaci benchmarků (zejména Codeforces a LiveCodeBench - u self-reportovaných coding benchmarků historicky DeepSeek mírně přeháněl)
Neočekávat:
- Že V4-Pro nahradí Opus 4.7 pro engineering workflow. Data to nepodporují.
- Že cena V4-Pro je hlavní atrakce. Není - je mid-range. Hlavní atrakce je V4-Flash.
- Že 1M kontext bez caveatů. MRCR 83,5 je dobré, ale ne ve třídě Opus 4.6 (92,9).
Co přijde na vibecoding.cz dál
Příští týden vyjde strukturální analýza “Pět čínských modelů za pět týdnů” s nezávislými benchmarky a konkrétními doporučeními pro české prostředí. GLM-5.1, QWEN, Kimi K2.6, MiMo V2.5-Pro a DeepSeek V4 dohromady představují strukturální změnu AI trhu, kterou Opus 4.7 a GPT-5.5 nezachytávají.
Pro dnešek je DeepSeek V4 hlavně cenová zpráva, ne technologický průlom. V4-Flash rozmetá ekonomiku inference pro produkční workflow. V4-Pro je solidní specializovaný model, ale ne vyzivatel špičky. A drop-in Anthropic API compatibility znamená, že testování obojího je otázka minut, ne dnů. Pokud vás právě Anthropic zprudil (nedivil bych se), nainstalujte si čínské modely a otestujte si je. Bude to za hubičku a udělat si osobní názor vždy stojí za to. Já od úterka testuju Kimi K2.6 v produkčním nasazení a nestačím se divit. Mimo jiné i tomu, že 20$, které jsem dal do nejnižšího tarifu, se mi nedaří vyčerpat…