DeepSeek V4 - dvě velké čínské novinky

Dlouho očekávaná preview verze čínského DeepSeek V4 je venku. A je to pátý čínský špičkový model za tři týdny. Přichází po Kimi K2.6, Qwen 3.6-Max-Preview, MiMo V2.5-Pro a GLM-5.1. Ve stejném období vydaly americké laboratoře Opus 4.7 a GPT-5.5. Kadence čínských vydání nad americkou jednoznačně převažuje.

Jelikož zprávy jsou zatím kusé a není k dispozici mnoho nezávislých testů na tyto čínské modely, dovolím si jen shrnující komentář a preview modelů, než vyjdou testy a než si přes víkend stihnu udělat osobní zkušenost.

Deepseek V4 je totiž jiný příběh, než naznačovaly prosakující zvěsti. Místo jediného modelu DeepSeek vydal dva modely s desetinásobkem rozdílu v ceně a výrazně odlišnou pozicí na trhu:

V4-Flash: bořič kategorie s cenou $0,14 / $0,28 za milion tokenů, výkonnostní třída Sonnet
V4-Pro: premium open-source model, cena $1,74 / $3,48 za milion tokenů, výkonnostní třída Opus 4.6

V4-Pro není univerzálním špičkovým modelem. Vede v algoritmickém kodingu a znalostních benchmarcích, ale zaostává v agentním kodingu, což je právě nejdůležitější kategorie pro reálný vývojářský workflow v roce 2026. Pro české publikum, které uvažuje o migraci z Anthropic nebo OpenAI na čínský stack, to znamená pečlivě zvažovat, který V4 dává smysl pro konkrétní use case.

Pozor, tento článek používá oficiální data z oznámení DeepSeek na WeChat, Hugging Face model card a oficiální ceníku. Všechny benchmarky v tomto článku jsou od DeepSeeku. Strukturální analýza s nezávislými benchmarky od Artificial Analysis a LMSYS vyjde na vibecoding.cz příští týden, až budou publikovány.

Co DeepSeek V4 skutečně je

Dvě varianty s úplně odlišnou pozicí

Parametr	V4-Flash	V4-Pro
Celkové parametry	284 miliard	1,6 bilionu
Aktivované parametry (MoE)	13 miliard	49 miliard
Pretraining tokens	32T	33T
Kontextové okno	1M	1M
Max output	384K	384K
Thinking modes	non-thinking + thinking	non-thinking + thinking
Reasoning effort	high / max	high / max
Open-source váhy	✓	✓
API	✓	✓

Klíčové: obě varianty mají 1M kontextové okno. DeepSeek explicitně říká, že 1M kontext je default pro všechny jeho oficiální služby. Není to premiová funkce za příplatek.

Oficiální ceny

Tokenů	V4-Flash	V4-Pro
1M input tokens (cache hit)	$0,028	$0,145
1M input tokens (cache miss)	$0,14	$1,74
1M output tokens	$0,28	$3,48

V4-Flash je 12× levnější než V4-Pro na výstupu. To je extrémní cenové rozpětí. V4-Pro je sám o sobě stále mid-range (mezi GPT-5.5 a Kimi K2.6), ale V4-Flash je jinou kategorii - prakticky za cenu Haiku 4.5, s výkonem Sonnetu.

Architektonická inovace

DSA (DeepSeek Sparse Attention) s token-dimension compression je hlavní technická novinka. Na 1M kontextu vyžaduje V4-Pro pouze 27 % FLOPs pro single-token inferenci a 10 % KV cache oproti DeepSeek V3.2. To je 4× nižší compute a 10× nižší paměťová stopa pro dlouhý kontext.

Další novinka: Manifold-Constrained Hyper-Connections (mHC) stabilizují trénink bilionového MoE modelu.

FP4 + FP8 mixed precision: MoE expert parametry používají FP4, ostatní parametry FP8. Umožňuje lokální běh na 2× RTX 4090 v INT8 nebo 1× RTX 5090 v INT4 pro V4-Flash.

API compatibility: zásadní pro vývojáře

DeepSeek API podporuje oba standardní rozhraní:

OpenAI Chat Completions: https://api.deepseek.com
Anthropic API interface: https://api.deepseek.com/anthropic

To znamená, že existující Claude Code workflow lze přepnout na V4 drop-in - pouze změnou base URL a model ID. Modely v4 jsou explicitně optimalizované pro Claude Code, OpenClaw, OpenCode a CodeBuddy.

Důležité upozornění pro současné uživatele DeepSeek: staré model IDs deepseek-chat a deepseek-reasoner budou deaktivovány 24. července 2026 (za 3 měsíce). Aktuálně mapují na V4-Flash non-thinking a thinking mode. Migrace je nutná.

Benchmarková data: čeho si všimnout

Všechna čísla jsou DeepSeek self-reports. V tabulce jsou všechny modely na maximum reasoning effort (Max / xHigh / High / Thinking), tedy férové srovnání.

Knowledge & Reasoning (vybrané benchmarky)

Benchmark	V4-Pro	V4-Flash	K2.6	GLM-5.1	Opus 4.6	GPT-5.4	Gemini 3.1 Pro
MMLU-Pro	87,5	86,2	87,1	86,0	89,1	87,5	91,0
SimpleQA-Verified	57,9	34,1	36,9	38,1	46,2	45,3	75,6
Chinese-SimpleQA	84,4	78,9	75,9	75,0	76,2	76,8	85,9
GPQA Diamond	90,1	88,1	90,5	86,2	91,3	93,0	94,3
HLE	37,7	34,8	36,4	34,7	40,0	39,8	44,4
LiveCodeBench	93,5	91,6	89,6	—	88,8	—	91,7
Codeforces (rating)	3206	3052	—	—	—	3168	3052
HMMT 2026 Feb	95,2	94,8	92,7	89,4	96,2	97,7	94,7
IMOAnswerBench	89,8	88,4	86,0	83,8	75,3	91,4	81,0
Apex	38,3	33,0	24,0	11,5	34,5	54,1	60,9

Long Context

Benchmark	V4-Pro	V4-Flash	Opus 4.6	Gemini 3.1 Pro
MRCR 1M	83,5	78,7	92,9	76,3
CorpusQA 1M	62,0	60,5	71,7	53,8

Agentic

Benchmark	V4-Pro	V4-Flash	K2.6	GLM-5.1	Opus 4.6	GPT-5.4	Gemini 3.1 Pro
Terminal Bench 2.0	67,9	56,9	66,7	63,5	65,4	75,1	68,5
SWE Verified	80,6	79,0	80,2	—	80,8	—	80,6
SWE Pro	55,4	52,6	58,6	58,4	57,3	57,7	54,2
SWE Multilingual	76,2	73,3	76,7	73,3	77,5	—	—
BrowseComp	83,4	73,2	83,2	79,3	83,7	82,7	85,9
HLE w/tools	48,2	45,1	54,0	50,4	53,1	52,0	51,6
GDPval-AA (Elo)	1554	1395	1482	1535	1619	1674	1314
MCPAtlas Public	73,6	69,0	66,6	71,8	73,8	67,2	69,2
Toolathlon	51,8	47,8	50,0	40,7	47,2	54,6	48,8

Co z tabulky plyne

V4-Pro-Max vede (nebo remizuje) v:

Algoritmické coding (Codeforces rating 3206, #1)
LiveCodeBench 93,5 (#1)
IMOAnswerBench 89,8 (#1 mezi open-source)
Apex Shortlist 90,2 (#1)
Chinese-SimpleQA 84,4 (mezi open-source nedostižné)
SimpleQA-Verified 57,9 (mezi open-source dominantní)

V4-Pro-Max zaostává v:

SWE Pro 55,4 (pátý místo, za K2.6, GLM-5.1, Opus 4.6, GPT-5.4)
Terminal Bench 2.0 67,9 (za GPT-5.4 o 7,2 bodu)
HLE w/tools 48,2 (za K2.6 o 5,8 bodu, za Opus 4.6 o 4,9)
GDPval-AA Elo 1554 (za GPT-5.4 o 120, za Opus 4.6 o 65)
Apex 38,3 (za Gemini 3.1 Pro o 22,6 bodu)
MRCR 1M 83,5 (za Opus 4.6 o 9,4 bodu)

V4-Flash-Max profil:

Na většině benchmarků jen 3-5 bodů za V4-Pro
Na některých dramaticky zaostává (SimpleQA-Verified 34,1 vs 57,9 = rozdíl 23,8 bodů)
Za desetinu ceny V4-Pro

Co říká DeepSeek sám

Zajímavá je poctivá sebereflexe v oznámení. DeepSeek explicitně uvádí:

“V4-Pro Agentic Coding už dosáhl nejlepší úrovně mezi open-source modely. Podle interních zaměstnanců, kteří V4 používají, je uživatelský zážitek lepší než Sonnet 4.5, kvalita výstupu se blíží Opus 4.6 v non-thinking módu, ale stále je jistá mezera vůči Opus 4.6 v thinking módu.”

To je vzácně přesné sebehodnocení. A benchmarková data tuto sebereflexi potvrzují. V4-Pro je pod Opus 4.6 Max na většině agentních benchmarků, ale srovnatelný s non-thinking režimem.

A zásadní upozornění: V oznámení se nikde necituje srovnání s Opus 4.7 nebo GPT-5.5. Tabulka v benchmarcích srovnává s Opus 4.6 a GPT-5.4. To je pochopitelné - Opus 4.7 vyšel před 8 dny, GPT-5.5 před den. Pro reálné srovnání s aktuálním frontier je potřeba počkat na nezávislé testy.

Co to znamená pro praktický workflow

V4-Flash: zatím nejzajímavější průlom široko daleko

Za cenu $0,14 / $0,28 (cache miss) je V4-Flash 5× levnější než Kimi K2.6 ($0,60 / $3,00) a 20× levnější než Opus 4.7 ($5 / $25) na vstupu. Výstup je pro Flash 9× levnější než K2.6 a 89× levnější než Opus 4.7.

Benchmarkově je V4-Flash v ligě Sonnet 4.5 - ne frontier, ale solidní pracovní model. Pro:

Vysokoobjemové produkční workflow (RAG, batch processing, customer support): Flash je rozumná první volba
Refactoring a generování kódu na jednodušších úlohách: 91,6 % LiveCodeBench je silné číslo
Dlouhé kontexty (1M s 78,7 % MRCR): pro většinu produkčních úloh stačí
Self-hosting: lokálně běží na 2× RTX 4090 v INT8

V4-Pro: specializovaný, ne univerzální

V4-Pro dává smysl pro:

Algoritmické kódovací úlohy (competitive programming, algoritmický design): Codeforces rating 3206 je reálně nejvyšší mezi veřejně dostupnými modely
Čínsko-jazyčné workflow: Chinese-SimpleQA 84,4 je výrazně nad ostatními
Matematika a STEM: IMOAnswerBench 89,8, HMMT 95,2 - solid frontier výkon
Scénáře s velkou citlivostí na cenu, kde Opus 4.7 je ekonomicky nedostupný: V4-Pro za $1,74 / $3,48 je 3× levnější než Opus 4.7

V4-Pro nedává smysl pro:

Agentní coding: SWE Pro 55,4 je páté místo. Pokud pracuješ v Cursor nebo Claude Code na reálných engineering úlohách, K2.6 nebo GLM-5.1 jsou lepší (a levnější) volby.
Terminal a shell workflow: GPT-5.5 dominuje na Terminal Bench s 82,7 % (Opus 4.7 69,4 %, V4-Pro 67,9 %)
Enterprise regulovaná prostředí: Čínský původ + Huawei inference hardware = compliance riziko
Dlouhý kontext přes 500K tokens: Opus 4.6 zůstává neporažen na MRCR 1M

Kompatibilita API: praktický hack týdne

Oficiální podpora Anthropic API rozhraní na https://api.deepseek.com/anthropic znamená, že Claude Code workflow lze testovat s V4 za 2 minuty:

export ANTHROPIC_BASE_URL="https://api.deepseek.com/anthropic"
export ANTHROPIC_AUTH_TOKEN="your-deepseek-key"
claude --model deepseek-v4-flash

Pro vývojáře s pre-existujícími Claude Code prompty a MCP integracemi je tohle nejjednodušší migrace v historii. Žádný code rewrite, žádná prompt adaptace. Jen jiný endpoint.

Pozor: ne všechna Claude Code funkcionality se přeloží 1:1. Task budgets, advisor tool a specifické Anthropic features jsou vázané na Anthropic infrastructure. Základní kódovací workflow ale funguje.

Co dělat teď

Udělat dnes nebo zítra:

Stáhnout API key z platform.deepseek.com (free tier obvykle dostupný)
Otestovat V4-Flash na 2-3 reálných úlohách z tvého workflow
Porovnat výstup s tvým aktuálním default modelem
Pokud používáš Claude Code, přepnout base URL na DeepSeek Anthropic endpoint a otestovat

Udělat tento týden:

Spustit V4-Flash na batch workflow (RAG, hromadná klasifikace, doc processing) a změřit náklady
Pro V4-Pro rozhodnout: pokud tvůj workflow padá do jeho silných kategorií (algoritmické coding, Chinese content, matematika), testovat ho. Pokud je to general engineering, zůstat u Opus 4.7 nebo K2.6.

Počkat na:

Artificial Analysis Intelligence Index pro V4 (typicky 3-7 dnů po vydání)
LMSYS Arena rating
Nezávislou verifikaci benchmarků (zejména Codeforces a LiveCodeBench - u self-reportovaných coding benchmarků historicky DeepSeek mírně přeháněl)

Neočekávat:

Že V4-Pro nahradí Opus 4.7 pro engineering workflow. Data to nepodporují.
Že cena V4-Pro je hlavní atrakce. Není - je mid-range. Hlavní atrakce je V4-Flash.
Že 1M kontext bez caveatů. MRCR 83,5 je dobré, ale ne ve třídě Opus 4.6 (92,9).

Co přijde na vibecoding.cz dál

Příští týden vyjde strukturální analýza “Pět čínských modelů za pět týdnů” s nezávislými benchmarky a konkrétními doporučeními pro české prostředí. GLM-5.1, QWEN, Kimi K2.6, MiMo V2.5-Pro a DeepSeek V4 dohromady představují strukturální změnu AI trhu, kterou Opus 4.7 a GPT-5.5 nezachytávají.

Pro dnešek je DeepSeek V4 hlavně cenová zpráva, ne technologický průlom. V4-Flash rozmetá ekonomiku inference pro produkční workflow. V4-Pro je solidní specializovaný model, ale ne vyzivatel špičky. A drop-in Anthropic API compatibility znamená, že testování obojího je otázka minut, ne dnů. Pokud vás právě Anthropic zprudil (nedivil bych se), nainstalujte si čínské modely a otestujte si je. Bude to za hubičku a udělat si osobní názor vždy stojí za to. Já od úterka testuju Kimi K2.6 v produkčním nasazení a nestačím se divit. Mimo jiné i tomu, že 20$, které jsem dal do nejnižšího tarifu, se mi nedaří vyčerpat…