Sakana Fugu - orchestrace místo modelu jako odpověď na Fable 5

Sakana AI, tokijská laboratoř spojená mimo jiné s Llionem Jonesem, spoluautorem původního paperu o transformerech, přišla s produktem, který se vymyká celé dosavadní logice modelů. Sakana Fugu totiž není model. Je to orchestrátor, který dynamicky koordinuje skupinu nejlepších dostupných modelů a nabízí je přes jedno OpenAI-kompatibilní API jako by šlo o jeden model. A jeho načasování není náhodné - přichází ve chvíli, kdy stažení Claude Fable 5 vládou USA udělalo z export-control rizika reálné téma. Prodejní argument Fugu zní přímo: špičkový výkon bez rizika, že vám model někdo vypne. Projdeme, jak Fugu funguje, proč je jeho koncept zajímavý a proč je u jeho benchmarků nutná velká opatrnost. Fakta čerpáme z produktové stránky Sakana a publikovaných paperů.

Co Fugu je a co není

Klíčový rozdíl proti všemu ostatnímu v této rubrice: Fugu není natrénovaný model s vlastními vahami. Je to vrstva nad existujícími modely. Vaše aplikace pošle běžný požadavek ve tvaru chat-completions a Fugu z něj udělá workflow - rozloží úlohu, vybere modely, přefiltruje kontext, rozešle práci, ověří výsledky a syntetizuje odpověď. Statický gateway routuje požadavek na model. Fugu vybírá proces.

Stojí na dvou paperech přijatých na ICLR 2026, což je důležité - není to jen marketing, ale publikovaný výzkum. TRINITY je kompaktní koordinátor, který přiděluje externím modelům role Thinker, Worker a Verifier napříč víkolovým řešením úlohy. Zajímavé je, že místo posilovaného učení používá evoluční strategii CMA-ES, která podle autorů na tomto problému překonává reinforcement learning. Conductor je 7B model trénovaný posilovaným učením, který sám navrhuje koordinační strategie v přirozeném jazyce - které modely volat, jaký jim dát prompt, jaký kontext odhalit. Jeho nejpraktičtější trik je trénink na náhodně měněném poolu modelů, což orchestrátor nutí adaptovat se na libovolnou skupinu místo memorování jednoho pevného složení.

Fugu existuje ve dvou variantách. Fugu balancuje výkon a latenci pro běžnou práci, Fugu Ultra zapojuje hlubší pool agentů pro nejtěžší úlohy za cenu delší odezvy. Beta běží od 24. dubna 2026, varianta Fugu Ultra s identifikátorem fugu-ultra-20260615 je z poloviny června. Není to tedy úplně čerstvý produkt, ale jeho aktuální podoba a načasování dostávají smysl právě teď.

Strategický pitch a jeho háček

Fugu se prodává jako pojistka proti tomu, co se stalo s Fable. Sakana to na stránce říká otevřeně - Fugu nabízí špičkovou schopnost bez rizika export-control omezení a staví se bok po boku s Fable 5 a Mythos Preview. Logika je jasná: když máte místo jednoho modelu skupinu zaměnitelných, a jeden z nich vypadne kvůli vládnímu zásahu, jurisdikci nebo rate-limitu, orchestrátor sáhne po jiných. Pro tým, kterému Fable 5 přes noc zmizel, je to lákavá nabídka.

Háček je v tom, že tahle nezávislost je jen částečná. Pokud Fugu pool obsahuje cizí frontier API, pak svou závislost neodstraňujete, jen ji přesouváte za hranici dalšího dodavatele. Strop výkonu Fugu padá ve chvíli, kdy jsou upstream modely rate-limitované, staženy nebo regionálně blokované - tedy přesně ten problém, který má Fugu řešit, se vrací o úroveň výš. Mimochodem Fable 5 ani Mythos Preview v poolu Fugu nejsou, protože nejsou veřejně dostupné. Fugu se s nimi tedy srovnává, ale nepoužívá je.

Benchmarky: číst velmi opatrně

Sakana zveřejnila tabulku, kde Fugu Ultra vede na většině benchmarků. SWE-Bench Pro 73,7 nad Opus 4.8 (69,2), Terminal-Bench 2.1 82,1 nad GPT-5.5 (78,2). Vypadá to silně, ale jsou tu čtyři důvody, proč ta čísla brát se značnou rezervou.

Scaffold rozhoduje víc než model. Tohle je nejdůležitější výhrada. Na SWE-Bench Pro může samotný scaffold, tedy harness obklopující model, posunout skóre o deset až dvacet bodů i víc. Sakana použila pro Fugu scaffold mini-swe-agent, zatímco čísla konkurentů jsou převzatá od jejich tvůrců s jejich vlastními harnessy. Rozdíl mezi Fugu Ultra 73,7 a Fable 5 80,3 je 6,6 bodu - tedy menší než rozptyl, který způsobí pouhá změna scaffoldu. Tato čísla neměří váhy modelu, ale chování systému v konkrétním harnessu, a každé vzniklo za jiných podmínek.

Srovnává se tým s jednotlivcem. Fugu Ultra je orchestrace více frontier modelů. Srovnávat výkon týmu modelů proti jednomu modelu je jako srovnávat skupinu specialistů s jedním člověkem - pointa není, že tým vyhraje, ale o kolik a za jakou cenu. Správná otázka nezní “je Fugu lepší než Opus”, ale “je orchestrace lepší než nejlepší jednotlivý model v poolu, a stojí ten rozdíl za přidanou složitost”.

Pool obsahuje srovnávané modely. Pokud Fugu Ultra orchestruje mimo jiné Opus 4.8, Gemini 3.1 Pro a GPT-5.5, pak řádek “Fugu vs Opus 4.8” je vlastně “Opus 4.8 plus další modely vs Opus 4.8 sám”. Skoro tautologicky musí být výsledek lepší nebo stejný.

Over-orchestrace je vidět ve vlastních datech. A tady Sakana nechtěně ukázala strop své metody. Levnější Fugu Standard poráží dražší Fugu Ultra na SciCode (60,1 proti 58,7) a na τ³ Banking (21,7 proti 20,6). Víc agentů tedy není vždy lepší - hlubší orchestrace přidává sémantický drift, víc kol a víc míst, kde se to může pokazit. To je konkrétní empirický důkaz, že orchestrace má hranici užitečnosti, za kterou škodí.

Kvalitativní příklady na stránce - Rubikova kostka, blindfold chess, trading simulace - jsou anekdoty s anonymizovanými konkurenty Model A, B, C. Jsou efektní, ale nereprodukovatelné a jako důkaz neobstojí.

Tři místa, kde orchestrace selhává v produkci

Pro praktické nasazení jsou důležitější než benchmarky tři rizika, která orchestrace přináší.

První je over-orchestrace, kterou ukazují i vlastní data. Každé další volání agenta přidává latenci, náklady, sémantický drift a další místo, kde se privátní kontext může rozšířit dál, než bylo zamýšleno. Hloubka orchestrace by měla být rozhodnutí podle obtížnosti úlohy, ne výchozí stav.

Druhé je závislost na upstream modelech. Pokud Fugu spoléhá na cizí frontier API, jeho strop se odvíjí od jejich dostupnosti. To je ironicky stejný problém, který má Fugu řešit - jen posunutý za vendor boundary.

Třetí je neprůhlednost auditu. U regulovaných workloadů je klíčová otázka, který upstream model viděl kterou část kontextu, v jakém regionu a pod jakou retencí. Fugu záměrně neodhaluje, které modely pro dotaz použil a jak je koordinoval - je to proprietární. Pro firmu s přísnými datovými pravidly je kvalitní odpověď málo platná, pokud cesta k ní porušuje compliance.

Cena a dostupnost

Fugu Ultra stojí 5 dolarů za milion vstupních a 30 za výstupní tokeny, nad 272K kontextu 10 a 45 dolarů. To je zhruba na úrovni Opus 4.8 nebo dráž. U levnější varianty Fugu je cenový model neobvyklý - účtuje se sazba nejvyššího modelu v poolu, ne součet všech použitých. Lze také vyřadit konkrétní modely z poolu kvůli compliance.

Skrytá past je ale v tom, že orchestrace generuje víc tokenů. Thinker, Worker a Verifier si předávají kontext, běží víc kol, ověřuje se víckrát. I při jedné sazbě za token může být celková spotřeba na úlohu výrazně vyšší než u přímého volání jednoho modelu. Cena za token neříká cenu za úlohu, a u orchestrace ten rozdíl bývá větší. Fugu navíc zatím není dostupný v EU a EEA, dokud Sakana nedořeší soulad s GDPR - pro evropské týmy to může být rozhodující.

Co dělat teď a na co si ještě počkat

Fugu stojí za vyzkoušení, pokud:

Vás stažení Fable upozornilo na riziko závislosti na jednom dodavateli
Děláte coding, výzkum nebo bezpečnostní analýzy, kde se vyplatí plánování a verifikace
Chcete vrstvu, která přežije výpadek jednoho modelu díky zaměnitelnému poolu

Zvážit přímý model, pokud:

Vám stačí jeden silný model a nepotřebujete složitost orchestrace
Pracujete v EU nebo EEA, kde Fugu zatím není dostupný
Potřebujete plnou auditní průhlednost, který model viděl jaká data

Co počkat a ověřit:

Vlastní bake-off na reálných úlohách proti přímému frontier modelu - benchmarky Sakana to nenahradí
Reálnou cenu za úlohu, ne za token, včetně všech kol orchestrace
Latenční profil v produkci, hloubku workflow a počet volání
Nezávislé testy, které zatím chybí

Závěr

Sakana Fugu je intelektuálně nejzajímavější odpověď na otázku, kterou stažení Fable 5 postavilo do popředí: jak mít špičkový výkon a zároveň nebýt závislý na jednom modelu, který může přes noc zmizet. Orchestrace místo jednoho modelu je reálný architektonický posun, opřený o publikovaný výzkum, ne o marketing. Změna otázky z “kdo natrénoval největší model” na “kdo umí zkoordinovat nejlepší dostupné modely do spolehlivého workflow” je sama o sobě hodná pozornosti.

Benchmarky ale berte jako mapu, kde orchestrace pomáhá, ne jako tabulku vítězů. Srovnávají tým modelů s jednotlivci za nesouměřitelných podmínek, kde samotný scaffold dokáže rozhodnout víc než schopnost modelu, a Sakana ve vlastních datech ukázala, že hlubší orchestrace umí i uškodit. Skutečná hodnota Fugu se neukáže na cizí tabulce, ale na vašem vlastním bake-offu s vašimi úlohami, vaším rozpočtem a vaším scénářem, kdy jeden z modelů z poolu zmizí. Strategicky je ale Fugu výmluvný i bez ověřených čísel: ukazuje, že špičkový výkon se stává systémovým problémem, ne otázkou jednoho modelu na vrcholu žebříčku. To je úvaha, která přežije i to, jak nakonec dopadnou nezávislé testy.