NVIDIA poskládala celý AI stack a Nemotron 3 je jeho softwarová výkladní skříň

NVIDIA na Computexu 2026 v keynote Jensena Huanga neukázala jeden produkt, ale celou vertikálu. Od čipu RTX Spark do počítačů s Windows přes deskside superpočítač DGX Station až po datacentrovou platformu Vera Rubin v plné produkci - a nad tím vším jako softwarová výkladní skříň nejlepší americký open-weights model Nemotron 3 Ultra. Huang celý den vyprávěl jeden příběh: NVIDIA už není výrobce grafických karet, je to infrastrukturní firma, která dodává kompletní stack pro běh AI agentů od stolu po datové centrum.

Nemotron 3 Ultra: nejlepší americký model s otevřenými vahami

Začněme softwarem, protože ten je pro vývojáře nejzajímavější. Nemotron 3 Ultra je vrchol rodiny Nemotron 3 (Nano 30B, Super 120B, Ultra 550B). Má 550 miliard parametrů celkem, 55 miliard aktivních při 90% sparsity. Architektura kombinuje hybrid Mamba-Transformer s LatentMoE - state-space vrstvy pro efektivní dlouhý kontext, transformer vrstvy pro strukturované uvažování, MoE routing aktivuje na každý token jen zlomek expertů. Licence je NVIDIA Open Model Agreement, permisivní a komerčně použitelná, ale ne tak volná jako MIT nebo Apache 2.0.

Rozdíl mezi celkovými a aktivními parametry je důležitý. Výpočetně se Ultra při inferenci chová spíš jako 55B model, na každý token se aktivuje jen malá část expertů. Pro nároky na paměť ale platí celé číslo, protože router může sáhnout po kterémkoli expertovi a všechny váhy musí být dostupné.

Na Artificial Analysis Intelligence Indexu skóruje 48 - nejvyšší ze všech amerických open-weights modelů, nad Gemma 4 31B (39), Nemotron 3 Super (36) i gpt-oss-120b (33). Čínský open-weights frontier je ale výš, Kimi K2.6 dosahuje 54. Pozor na interpretaci: AA Index není intervalová škála, takže rozdíl 48 versus 54 nemusí znamenat stejný praktický odstup jako 24 versus 30. Férové je říct, že Ultra je blízko čínské open-weights špičce, ne ji kvantifikovat jako propast.

Reálná přednost Ultra je rychlost. Zveřejněné implementace dosahují přes 300 tokenů za sekundu na endpointu DeepInfra, zatímco čínské modely podobné velikosti od DeepSeek nebo Moonshot se typicky obsluhují rychlostí 50 až 100 tokenů za sekundu. Část toho rozdílu je nejspíš inherentní vlastnost modelu navrženého pro NVIDIA hardware a NVFP4 kvantizaci, část může jít na vrub optimalizace clusteru a inferenčního frameworku - z jednoho endpointu to nelze spolehlivě oddělit.

Benchmarky s výhradami

Solidní instruct benchmarky pro finální verzi Ultra zatím veřejně nejsou. Co máme, pochází ze tří zdrojů různé spolehlivosti. Artificial Analysis Intelligence Index 48 je nejspolehlivější, ale jde o hodnocení v partnerství s NVIDIA s pre-release přístupem, ne čistě nezávislé měření. Base model čísla od NVIDIA (MMLU Pro 79,0, Code 85,3, Math 85,4) jsou z pre-training checkpointu bez instruction tuningu - NVIDIA sama uvádí, že base model není k přímému nasazení, takže je nelze srovnávat s instruct modely jako GPT-5.5 nebo Opus 4.8. Navíc je NVIDIA srovnávala se staršími GLM-4.5 a Kimi K2, ne s aktuálním frontier. BenchLM.ai uvádí provizorní pozice, ale sám varuje, že nemá ověřené zdroje.

Tahle skepse má platit symetricky. Čínská čísla, vůči nimž Ultra srovnáváme, mají vlastní problémy - self-reporty MiMo a MiniMaxu jsme v předchozích briefech označili za neověřené, prompting strategie se liší. Brát NVIDIA benchmarky s rezervou a čínská jako daná by nebylo konzistentní. AA slíbil plné benchmarky při release, do té doby je rozumné s hodnocením vyčkat na obou stranách.

Hardware: vrstvená vertikála od notebooku po datacentrum

Tohle je jádro dnešní keynote. NVIDIA ukázala tři vrstvy hardwaru a ke každé patří jiná velikost modelu.

RTX Spark je vstup NVIDIA na trh osobních počítačů - čip do Windows notebooků a desktopů s Arm CPU (vyvinuto s MediaTekem), Blackwell GPU se 6 144 CUDA jádry a až 128 GB sdílené paměti. Konkurence pro Apple Silicon, Intel, AMD i Qualcomm. Na trhu od podzimu 2026, 30+ laptopů a 10+ desktopů.

DGX Station for Windows je o třídu výš - deskside superpočítač s čipem GB300 Grace Blackwell Ultra, až 748 GB koherentní paměti a 20 petaFLOPS FP4 výkonu. NVIDIA ji explicitně staví pro modely do bilionu parametrů. Vychází ve čtvrtém čtvrtletí 2026 od ASUS, Dell, GIGABYTE, HP, MSI a Supermicro.

Starší DGX Spark (od 2025) je samostatný mini superpočítač s čipem GB10, 128 GB paměti, cenou kolem 3 až 4 tisíc dolarů. Materiály k němu uvádějí strop zhruba 200 miliard parametrů.

Kam se na tu hierarchii vejde Nemotron Ultra? Velikost vah závisí na kvantizaci:

Přesnost	Velikost vah Ultra	128 GB Spark	748 GB DGX Station
BF16 (16 bit)	~1 100 GB	ne	ne
FP8 (8 bit)	~550 GB	ne	ano
NVFP4 (4 bit)	~275 GB	ne	ano, s rezervou na kontext

Ultra potřebuje i v nejagresivnější NVFP4 kvantizaci zhruba 275 GB jen na váhy, plus prostor na KV cache. To je dvojnásobek toho, co 128 GB Spark unese - na Spark hardware tedy Ultra běžet nebude (cesty kolem jako offloading na SSD existují, ale výkon klesne natolik, že to nedává smysl). Na DGX Station se 748 GB ale běží pohodlně, a právě tam vrcholný model míří. To dotváří vrstvené portfolio doslova: Nano (~15 GB v NVFP4) na notebook s RTX Spark, Super (~60 GB) na výkonnější Spark, Ultra (~275 GB) na DGX Station nebo do datacentra.

Nevejití vrcholného modelu do běžného PC ostatně není specifikum NVIDIA - GPT-5.5, Opus 4.8, Kimi K2.6 ani DeepSeek V4 se do 128 GB nevejdou. Je to vlastnost kategorie frontier modelů, a NVIDIA na ni právě vydala odpovídající desktop.

Vera Rubin a zbytek keynote

Datacentrovým headlinem byla platforma Vera Rubin, nyní v plné produkci. Kombinuje CPU Vera s GPU Rubin a podle NVIDIA nabízí zhruba 3,5krát vyšší trénovací a 5krát vyšší inferenční výkon než předchozí Blackwell. První systém s PCIe Gen6 a 1,2 TB/s LPDDR5X ECC paměti. Klíčové rámování opakované celý den: Vera Rubin je postavená specificky pro běh agentů, Vera CPU je optimalizované na nízkou latenci, protože “agenti myslí v nanosekundách”. Jeden Grace Blackwell rack lze nyní složit za pět minut.

Krátce zaznělo i ostatní: DSX AI Factory Platform pro stavbu datových center, edge platforma Jetson Thor pro robotiku, otevřené modely Alpamayo pro autonomní vozidla, vylepšení DLSS 4.5 s teaserem DLSS 5. NVIDIA nastínila roadmapu Spark platformy na tři generace - Grace Blackwell (2026), Vera Rubin (2027/28) a Feynman (2030).

Co si z toho odnést

Strategické gesto je čitelné. Huang pozicoval NVIDIA jako “infrastructure company” a celý den vyprávěl jeden propojený příběh - od čipu v notebooku přes desktop až po datacentrum, všechno stejná architektura, všechno postavené pro agenty. Nemotron 3 Ultra je v tom příběhu software, který tu vertikálu předvádí. Cílem není vydělat na modelu, ale ukázat, co celý stack umí, a prodat hardware, na kterém poběží. NVIDIA staví open-weights modely proto, aby se víc jejích čipů prodalo na jejich provoz - a aby existovala americká alternativa k DeepSeeku a dalším čínským modelům.

Pro vibecoding.cz publikum je praktický závěr dvojí. Nemotron 3 Ultra je vážný open-weights hráč blízko čínské špičky, s reálnou výhodou v rychlosti a vertikální integraci, ale dokud nebudou venku plné nezávislé benchmarky, je hodnocení předběžné. A pokud uvažujete o lokálním běhu, řiďte se velikostí modelu: Nano na notebook, Super na workstation, Ultra na DGX Station nebo do cloudu. Zbytek keynote - Vera Rubin, Jetson, Alpamayo - je zajímavý kontext, ale racky do datacentra si nikdo z nás nekupuje. Umět si spočítat velikost vah proti dostupné paměti je dovednost, která ušetří zklamání u kteréhokoli modelu.