Brief Patrick Zandl

DeepSeek V4 - dvě velké čínské novinky

Dlouho očekávaná preview verze čínského DeepSeek V4 je venku. A je to pátý čínský špičkový model za tři týdny. Ve stejném období vydaly americké laboratoře Opus 4.7 a GPT-5.5. Kadence čínských vydání nad americkou jednoznačně převažuje.

Dlouho očekávaná preview verze čínského DeepSeek V4 je venku. A je to pátý čínský špičkový model za tři týdny. Přichází po Kimi K2.6, Qwen 3.6-Max-Preview, MiMo V2.5-Pro a GLM-5.1. Ve stejném období vydaly americké laboratoře Opus 4.7 a GPT-5.5. Kadence čínských vydání nad americkou jednoznačně převažuje.

Jelikož zprávy jsou zatím kusé a není k dispozici mnoho nezávislých testů na tyto čínské modely, dovolím si jen shrnující komentář a preview modelů, než vyjdou testy a než si přes víkend stihnu udělat osobní zkušenost.

Deepseek V4 je totiž jiný příběh, než naznačovaly prosakující zvěsti. Místo jediného modelu DeepSeek vydal dva modely s desetinásobkem rozdílu v ceně a výrazně odlišnou pozicí na trhu:

  • V4-Flash: bořič kategorie s cenou $0,14 / $0,28 za milion tokenů, výkonnostní třída Sonnet
  • V4-Pro: premium open-source model, cena $1,74 / $3,48 za milion tokenů, výkonnostní třída Opus 4.6

V4-Pro není univerzálním špičkovým modelem. Vede v algoritmickém kodingu a znalostních benchmarcích, ale zaostává v agentním kodingu, což je právě nejdůležitější kategorie pro reálný vývojářský workflow v roce 2026. Pro české publikum, které uvažuje o migraci z Anthropic nebo OpenAI na čínský stack, to znamená pečlivě zvažovat, který V4 dává smysl pro konkrétní use case.

Pozor, tento článek používá oficiální data z oznámení DeepSeek na WeChat, Hugging Face model card a oficiální ceníku. Všechny benchmarky v tomto článku jsou od DeepSeeku. Strukturální analýza s nezávislými benchmarky od Artificial Analysis a LMSYS vyjde na vibecoding.cz příští týden, až budou publikovány.

Co DeepSeek V4 skutečně je

Dvě varianty s úplně odlišnou pozicí

ParametrV4-FlashV4-Pro
Celkové parametry284 miliard1,6 bilionu
Aktivované parametry (MoE)13 miliard49 miliard
Pretraining tokens32T33T
Kontextové okno1M1M
Max output384K384K
Thinking modesnon-thinking + thinkingnon-thinking + thinking
Reasoning efforthigh / maxhigh / max
Open-source váhy
API

Klíčové: obě varianty mají 1M kontextové okno. DeepSeek explicitně říká, že 1M kontext je default pro všechny jeho oficiální služby. Není to premiová funkce za příplatek.

Oficiální ceny

TokenůV4-FlashV4-Pro
1M input tokens (cache hit)$0,028$0,145
1M input tokens (cache miss)$0,14$1,74
1M output tokens$0,28$3,48

V4-Flash je 12× levnější než V4-Pro na výstupu. To je extrémní cenové rozpětí. V4-Pro je sám o sobě stále mid-range (mezi GPT-5.5 a Kimi K2.6), ale V4-Flash je jinou kategorii - prakticky za cenu Haiku 4.5, s výkonem Sonnetu.

Architektonická inovace

DSA (DeepSeek Sparse Attention) s token-dimension compression je hlavní technická novinka. Na 1M kontextu vyžaduje V4-Pro pouze 27 % FLOPs pro single-token inferenci a 10 % KV cache oproti DeepSeek V3.2. To je 4× nižší compute a 10× nižší paměťová stopa pro dlouhý kontext.

Další novinka: Manifold-Constrained Hyper-Connections (mHC) stabilizují trénink bilionového MoE modelu.

FP4 + FP8 mixed precision: MoE expert parametry používají FP4, ostatní parametry FP8. Umožňuje lokální běh na 2× RTX 4090 v INT8 nebo 1× RTX 5090 v INT4 pro V4-Flash.

API compatibility: zásadní pro vývojáře

DeepSeek API podporuje oba standardní rozhraní:

  • OpenAI Chat Completions: https://api.deepseek.com
  • Anthropic API interface: https://api.deepseek.com/anthropic

To znamená, že existující Claude Code workflow lze přepnout na V4 drop-in - pouze změnou base URL a model ID. Modely v4 jsou explicitně optimalizované pro Claude Code, OpenClaw, OpenCode a CodeBuddy.

Důležité upozornění pro současné uživatele DeepSeek: staré model IDs deepseek-chat a deepseek-reasoner budou deaktivovány 24. července 2026 (za 3 měsíce). Aktuálně mapují na V4-Flash non-thinking a thinking mode. Migrace je nutná.

Benchmarková data: čeho si všimnout

Všechna čísla jsou DeepSeek self-reports. V tabulce jsou všechny modely na maximum reasoning effort (Max / xHigh / High / Thinking), tedy férové srovnání.

Knowledge & Reasoning (vybrané benchmarky)

BenchmarkV4-ProV4-FlashK2.6GLM-5.1Opus 4.6GPT-5.4Gemini 3.1 Pro
MMLU-Pro87,586,287,186,089,187,591,0
SimpleQA-Verified57,934,136,938,146,245,375,6
Chinese-SimpleQA84,478,975,975,076,276,885,9
GPQA Diamond90,188,190,586,291,393,094,3
HLE37,734,836,434,740,039,844,4
LiveCodeBench93,591,689,688,891,7
Codeforces (rating)3206305231683052
HMMT 2026 Feb95,294,892,789,496,297,794,7
IMOAnswerBench89,888,486,083,875,391,481,0
Apex38,333,024,011,534,554,160,9

Long Context

BenchmarkV4-ProV4-FlashOpus 4.6Gemini 3.1 Pro
MRCR 1M83,578,792,976,3
CorpusQA 1M62,060,571,753,8

Agentic

BenchmarkV4-ProV4-FlashK2.6GLM-5.1Opus 4.6GPT-5.4Gemini 3.1 Pro
Terminal Bench 2.067,956,966,763,565,475,168,5
SWE Verified80,679,080,280,880,6
SWE Pro55,452,658,658,457,357,754,2
SWE Multilingual76,273,376,773,377,5
BrowseComp83,473,283,279,383,782,785,9
HLE w/tools48,245,154,050,453,152,051,6
GDPval-AA (Elo)1554139514821535161916741314
MCPAtlas Public73,669,066,671,873,867,269,2
Toolathlon51,847,850,040,747,254,648,8

Co z tabulky plyne

V4-Pro-Max vede (nebo remizuje) v:

  • Algoritmické coding (Codeforces rating 3206, #1)
  • LiveCodeBench 93,5 (#1)
  • IMOAnswerBench 89,8 (#1 mezi open-source)
  • Apex Shortlist 90,2 (#1)
  • Chinese-SimpleQA 84,4 (mezi open-source nedostižné)
  • SimpleQA-Verified 57,9 (mezi open-source dominantní)

V4-Pro-Max zaostává v:

  • SWE Pro 55,4 (pátý místo, za K2.6, GLM-5.1, Opus 4.6, GPT-5.4)
  • Terminal Bench 2.0 67,9 (za GPT-5.4 o 7,2 bodu)
  • HLE w/tools 48,2 (za K2.6 o 5,8 bodu, za Opus 4.6 o 4,9)
  • GDPval-AA Elo 1554 (za GPT-5.4 o 120, za Opus 4.6 o 65)
  • Apex 38,3 (za Gemini 3.1 Pro o 22,6 bodu)
  • MRCR 1M 83,5 (za Opus 4.6 o 9,4 bodu)

V4-Flash-Max profil:

  • Na většině benchmarků jen 3-5 bodů za V4-Pro
  • Na některých dramaticky zaostává (SimpleQA-Verified 34,1 vs 57,9 = rozdíl 23,8 bodů)
  • Za desetinu ceny V4-Pro

Co říká DeepSeek sám

Zajímavá je poctivá sebereflexe v oznámení. DeepSeek explicitně uvádí:

“V4-Pro Agentic Coding už dosáhl nejlepší úrovně mezi open-source modely. Podle interních zaměstnanců, kteří V4 používají, je uživatelský zážitek lepší než Sonnet 4.5, kvalita výstupu se blíží Opus 4.6 v non-thinking módu, ale stále je jistá mezera vůči Opus 4.6 v thinking módu.”

To je vzácně přesné sebehodnocení. A benchmarková data tuto sebereflexi potvrzují. V4-Pro je pod Opus 4.6 Max na většině agentních benchmarků, ale srovnatelný s non-thinking režimem.

A zásadní upozornění: V oznámení se nikde necituje srovnání s Opus 4.7 nebo GPT-5.5. Tabulka v benchmarcích srovnává s Opus 4.6 a GPT-5.4. To je pochopitelné - Opus 4.7 vyšel před 8 dny, GPT-5.5 před den. Pro reálné srovnání s aktuálním frontier je potřeba počkat na nezávislé testy.

Co to znamená pro praktický workflow

V4-Flash: zatím nejzajímavější průlom široko daleko

Za cenu $0,14 / $0,28 (cache miss) je V4-Flash 5× levnější než Kimi K2.6 ($0,60 / $3,00) a 20× levnější než Opus 4.7 ($5 / $25) na vstupu. Výstup je pro Flash 9× levnější než K2.6 a 89× levnější než Opus 4.7.

Benchmarkově je V4-Flash v ligě Sonnet 4.5 - ne frontier, ale solidní pracovní model. Pro:

  • Vysokoobjemové produkční workflow (RAG, batch processing, customer support): Flash je rozumná první volba
  • Refactoring a generování kódu na jednodušších úlohách: 91,6 % LiveCodeBench je silné číslo
  • Dlouhé kontexty (1M s 78,7 % MRCR): pro většinu produkčních úloh stačí
  • Self-hosting: lokálně běží na 2× RTX 4090 v INT8

V4-Pro: specializovaný, ne univerzální

V4-Pro dává smysl pro:

  • Algoritmické kódovací úlohy (competitive programming, algoritmický design): Codeforces rating 3206 je reálně nejvyšší mezi veřejně dostupnými modely
  • Čínsko-jazyčné workflow: Chinese-SimpleQA 84,4 je výrazně nad ostatními
  • Matematika a STEM: IMOAnswerBench 89,8, HMMT 95,2 - solid frontier výkon
  • Scénáře s velkou citlivostí na cenu, kde Opus 4.7 je ekonomicky nedostupný: V4-Pro za $1,74 / $3,48 je 3× levnější než Opus 4.7

V4-Pro nedává smysl pro:

  • Agentní coding: SWE Pro 55,4 je páté místo. Pokud pracuješ v Cursor nebo Claude Code na reálných engineering úlohách, K2.6 nebo GLM-5.1 jsou lepší (a levnější) volby.
  • Terminal a shell workflow: GPT-5.5 dominuje na Terminal Bench s 82,7 % (Opus 4.7 69,4 %, V4-Pro 67,9 %)
  • Enterprise regulovaná prostředí: Čínský původ + Huawei inference hardware = compliance riziko
  • Dlouhý kontext přes 500K tokens: Opus 4.6 zůstává neporažen na MRCR 1M

Kompatibilita API: praktický hack týdne

Oficiální podpora Anthropic API rozhraní na https://api.deepseek.com/anthropic znamená, že Claude Code workflow lze testovat s V4 za 2 minuty:

export ANTHROPIC_BASE_URL="https://api.deepseek.com/anthropic"
export ANTHROPIC_AUTH_TOKEN="your-deepseek-key"
claude --model deepseek-v4-flash

Pro vývojáře s pre-existujícími Claude Code prompty a MCP integracemi je tohle nejjednodušší migrace v historii. Žádný code rewrite, žádná prompt adaptace. Jen jiný endpoint.

Pozor: ne všechna Claude Code funkcionality se přeloží 1:1. Task budgets, advisor tool a specifické Anthropic features jsou vázané na Anthropic infrastructure. Základní kódovací workflow ale funguje.

Co dělat teď

Udělat dnes nebo zítra:

  1. Stáhnout API key z platform.deepseek.com (free tier obvykle dostupný)
  2. Otestovat V4-Flash na 2-3 reálných úlohách z tvého workflow
  3. Porovnat výstup s tvým aktuálním default modelem
  4. Pokud používáš Claude Code, přepnout base URL na DeepSeek Anthropic endpoint a otestovat

Udělat tento týden:

  1. Spustit V4-Flash na batch workflow (RAG, hromadná klasifikace, doc processing) a změřit náklady
  2. Pro V4-Pro rozhodnout: pokud tvůj workflow padá do jeho silných kategorií (algoritmické coding, Chinese content, matematika), testovat ho. Pokud je to general engineering, zůstat u Opus 4.7 nebo K2.6.

Počkat na:

  1. Artificial Analysis Intelligence Index pro V4 (typicky 3-7 dnů po vydání)
  2. LMSYS Arena rating
  3. Nezávislou verifikaci benchmarků (zejména Codeforces a LiveCodeBench - u self-reportovaných coding benchmarků historicky DeepSeek mírně přeháněl)

Neočekávat:

  1. Že V4-Pro nahradí Opus 4.7 pro engineering workflow. Data to nepodporují.
  2. Že cena V4-Pro je hlavní atrakce. Není - je mid-range. Hlavní atrakce je V4-Flash.
  3. Že 1M kontext bez caveatů. MRCR 83,5 je dobré, ale ne ve třídě Opus 4.6 (92,9).

Co přijde na vibecoding.cz dál

Příští týden vyjde strukturální analýza “Pět čínských modelů za pět týdnů” s nezávislými benchmarky a konkrétními doporučeními pro české prostředí. GLM-5.1, QWEN, Kimi K2.6, MiMo V2.5-Pro a DeepSeek V4 dohromady představují strukturální změnu AI trhu, kterou Opus 4.7 a GPT-5.5 nezachytávají.

Pro dnešek je DeepSeek V4 hlavně cenová zpráva, ne technologický průlom. V4-Flash rozmetá ekonomiku inference pro produkční workflow. V4-Pro je solidní specializovaný model, ale ne vyzivatel špičky. A drop-in Anthropic API compatibility znamená, že testování obojího je otázka minut, ne dnů. Pokud vás právě Anthropic zprudil (nedivil bych se), nainstalujte si čínské modely a otestujte si je. Bude to za hubičku a udělat si osobní názor vždy stojí za to. Já od úterka testuju Kimi K2.6 v produkčním nasazení a nestačím se divit. Mimo jiné i tomu, že 20$, které jsem dal do nejnižšího tarifu, se mi nedaří vyčerpat…