DeepSeek V4 Pro je rozsáhlý model typu Mixture-of-Experts od společnosti DeepSeek s celkovým počtem 1,6T parametrů a 49B aktivovaných parametrů, podporující kontextové okno o velikosti 1M tokenů. Je navržen pro pokročilé usuzování, kódování,…
Unikátní charakteristiky
Model využívá masivní MoE architekturu s 1.6 biliony parametrů, z nichž je při inferenci aktivních pouze 49 miliard, což zajišťuje vysokou výpočetní efektivitu. Technicky se odlišuje především nadstandardním oknem pro generovaný výstup o velikosti až 384 000 tokenů při celkovém kontextu 1 milion tokenů.
Silné stránky
Kapacita výstupu
Podporuje generování až 384 000 tokenů v jedné odpovědi, což je technický parametr vhodný pro generování rozsáhlých kódových bází nebo dlouhých dokumentů bez nutnosti iterativního dotazování.
Efektivita architektury
Díky aktivaci pouze 49B parametrů z celkových 1.6T dosahuje model vysokého výkonu při zachování relativně nízkých nákladů na inferenci ($1.74 za 1M vstupních tokenů).
Slabé stránky
Absence multimodality
Model zpracovává výhradně textové vstupy a výstupy (text → text), což jej omezuje v úlohách vyžadujících analýzu obrazu, zvuku nebo videa.
Nároky na paměť
Přestože je aktivních pouze 49B parametrů, celková velikost modelu (1.6T) vyžaduje pro případný self-hosting masivní kapacitu VRAM, což omezuje jeho lokální nasazení.