Item: StepFun: Step 3.7 Flash
Author: Patrick Zandl

StepFun: Step 3.7 Flash

stepfun/step-3.7-flash

Step 3.7 Flash je solidní volbou pro vývojáře, kteří potřebují rychlou a efektivní analýzu videa a obrázků, ale pro čistě textové úlohy existují levnější alternativy s větším kontextem.

✦

Killer Feature Nativní integrace vizuálního enkodéru s masivní 196B MoE páteří umožňuje hluboké porozumění videu při zachování nízké latence.

⚠

Skryté riziko Cena za výstupní tokeny ($1.15/1M) může při generování dlouhých odpovědí nečekaně prodražit provoz v porovnání s agresivně naceněnou konkurencí.

$0.2 / 1M vstup

$1.15 / 1M výstup

256k kontext

256k max výstup

textimagevideo text Multimodální analýza (video/obrázky)Vysoká efektivita a rychlost

⚖️ Porovnání s konkurencí

Model	Cenové srovnání	Poznámka
Stepfun Step 3.7 Flash	← Právě prohlížíte	—
MistralAI Mistral Small 2603	Mistral je o 25 % levnější na vstupu a téměř o polovinu levnější na výstupu.	Mistral nabízí lepší cenu za výstupní tokeny a podobné kontextové okno (262k), ale Step 3.7 Flash má jasnou výhodu v nativní podpoře videa a pokročilé multimodalitě.
Google Gemini 3.1 Flash-Lite	Step 3.7 Flash je mírně levnější (o 20 % na vstupu a 23 % na výstupu).	Gemini nabízí 4x větší kontextové okno (1M tokenů) a silný ekosystém pro multimodální úlohy, StepFun naopak boduje masivní 196B MoE architekturou pro potenciálně komplexnější uvažování při mírně nižší ceně.
DeepSeek DeepSeek V4 Flash	DeepSeek je o 50 % levnější na vstupu a téměř 6x levnější na výstupu.	DeepSeek dominuje v ceně a velikosti kontextu (1M). Step 3.7 Flash se musí spoléhat na svůj specializovaný vizuální enkodér a nativní zpracování videa, aby obhájil vyšší provozní náklady.

🎯 Rozhodovací pomocník

✓

Použij když...

Analýza a sumarizace video záznamů
Extrakce dat z rozsáhlých obrazových datasetů
Rychlé zpracování multimodálních dotazů v reálném čase

✗

Nepoužívej když...

Generování extrémně dlouhých textových výstupů (kvůli vyšší ceně výstupu)
Úlohy vyžadující kontext nad 256 tisíc tokenů (např. analýza celých knihoven kódu)

Ideální pro:

Vývojáři multimodálních aplikacíAnalytici video obsahuTýmy hledající rychlé MoE modely

💪 Silné a slabé stránky

+ Silné stránky

Multimodalita

Nativní podpora zpracování videa a obrázků díky integrovanému vizuálnímu enkodéru, což umožňuje komplexní porozumění vizuálnímu obsahu.

Efektivita architektury

MoE architektura s 11B aktivními parametry z celkových 196B zajišťuje rychlou inferenci při zachování vysoké kapacity modelu pro složitější uvažování.

Cena vstupu

Velmi konkurenceschopná cena $0.20 za 1M vstupních tokenů zpřístupňuje analýzu rozsáhlých multimodálních dat.

− Slabé stránky

Kontextové okno

Kapacita 256 000 tokenů je sice dostatečná pro většinu úloh, ale zaostává za přímou konkurencí (např. Gemini nebo DeepSeek), která ve stejné cenové hladině nabízí 1M tokenů.

Cena výstupu

Cena $1.15 za 1M výstupních tokenů je relativně vysoká v porovnání s modely jako DeepSeek V4 Flash ($0.20) nebo Mistral Small ($0.60).

📝 Detailní popis

Krok 3.7 Flash je nejnovější vysoce efektivní multimodální model Mixture-of-Experts od StepFun. Spojuje jazykový backbone se 196 miliardami parametrů s vizuálním enkodérem pro nativní porozumění obrazu a videu, přičemž aktivuje přibližně 11 miliard parametrů…

Unikátní charakteristiky

Step 3.7 Flash je vysoce efektivní multimodální MoE model, který kombinuje masivní 196B jazykovou páteř s dedikovaným vizuálním enkodérem. Díky aktivaci pouze 11B parametrů při inferenci dosahuje nízké latence a příznivé ceny, přičemž nativně zpracovává text, obrázky i video.

Silné stránky

Multimodalita