NVIDIA Nemotron 3 Ultra is an open frontier-reasoning and orchestration model from NVIDIA, with 55B active parameters out of 550B total (MoE). Built on a hybrid Transformer-Mamba mixture-of-experts architecture, it…
Unikátní charakteristiky
Tento model kombinuje architektury Transformer a Mamba v uspořádání Mixture-of-Experts, což umožňuje efektivní zpracování masivního kontextu (až 1 milion tokenů) při zachování nízké latence. S 55 miliardami aktivních parametrů z celkových 550 miliard nabízí výkon na úrovni frontier modelů za zlomek výpočetních nákladů.
Silné stránky
Architektura a efektivita
Hybridní Transformer-Mamba MoE design poskytuje vysoký výkon při aktivaci pouze 10 % parametrů (55B z 550B), což optimalizuje propustnost a snižuje latenci.
Kapacita kontextu
Podpora 1 000 000 tokenů na vstupu a nadstandardních 16 384 tokenů na výstupu umožňuje analýzu rozsáhlých dokumentů a generování velmi dlouhých výstupů bez přerušení.
Cena vstupních tokenů
S cenou 0,50 USD za milion vstupních tokenů nabízí špičkové schopnosti uvažování za cenu, která je vysoce konkurenceschopná pro úlohy typu RAG.
Slabé stránky
Absence multimodality
Model je omezen pouze na textový vstup a výstup (text → text), chybí mu nativní podpora pro zpracování obrazu nebo zvuku.
Asymetrie ceny
Ačkoliv je vstup velmi levný (0,50 USD), cena za výstup (2,50 USD) je pětinásobná, což může prodražit úlohy náročné na generování dlouhých textů.