Krok 3.7 Flash je nejnovější vysoce efektivní multimodální model Mixture-of-Experts od StepFun. Spojuje jazykový backbone se 196 miliardami parametrů s vizuálním enkodérem pro nativní porozumění obrazu a videu, přičemž aktivuje přibližně 11 miliard parametrů…
Unikátní charakteristiky
Step 3.7 Flash je vysoce efektivní multimodální MoE model, který kombinuje masivní 196B jazykovou páteř s dedikovaným vizuálním enkodérem. Díky aktivaci pouze 11B parametrů při inferenci dosahuje nízké latence a příznivé ceny, přičemž nativně zpracovává text, obrázky i video.
Silné stránky
Multimodalita
Nativní podpora zpracování videa a obrázků díky integrovanému vizuálnímu enkodéru, což umožňuje komplexní porozumění vizuálnímu obsahu.
Efektivita architektury
MoE architektura s 11B aktivními parametry z celkových 196B zajišťuje rychlou inferenci při zachování vysoké kapacity modelu pro složitější uvažování.
Cena vstupu
Velmi konkurenceschopná cena $0.20 za 1M vstupních tokenů zpřístupňuje analýzu rozsáhlých multimodálních dat.
Slabé stránky
Kontextové okno
Kapacita 256 000 tokenů je sice dostatečná pro většinu úloh, ale zaostává za přímou konkurencí (např. Gemini nebo DeepSeek), která ve stejné cenové hladině nabízí 1M tokenů.
Cena výstupu
Cena $1.15 za 1M výstupních tokenů je relativně vysoká v porovnání s modely jako DeepSeek V4 Flash ($0.20) nebo Mistral Small ($0.60).