Ornith-1.0 - model, který se učí psát si vlastní strategii řešení

DeepReinforce, laboratoř známá předchozími pracemi na posilovaném učení jako CUDA-L1, vydala 25. června 2026 Ornith-1.0 - rodinu open-source modelů specializovaných na agentní coding. Zajímavá není ani tak konkurenceschopnost na benchmarcích, jako spíš to, co model dělá jinak: učí se generovat vlastní strategii řešení úlohy, místo aby spoléhal na rámec navržený člověkem. Přichází navíc pár dní po Sakana Fugu, a obě vydání míří na stejnou věc z opačných konců - na vrstvu kolem modelu, která dnes rozhoduje o výsledku skoro stejně jako model sám. Projdeme, co Ornith nabízí, v čem je jeho přístup nový a kde je jeho marketing selektivní. Fakta čerpáme z oznámení DeepReinforce a zveřejněných benchmarků.

Co Ornith-1.0 je

Ornith-1.0 pokrývá celé spektrum velikostí ve čtyřech variantách: 9B Dense pro nasazení na edge zařízeních, 31B Dense, 35B MoE a vlajkový 397B MoE pro maximální výkon. Všechny jsou postavené na pretrénovaných modelech Gemma 4 a Qwen 3.5 - tedy nejde o modely od základu, ale o dotrénované existující open-weights modely. Váhy jsou hned dostupné na Hugging Face. DeepReinforce tvrdí, že Ornith dosahuje špičkového výkonu mezi open-source modely srovnatelné velikosti na coding benchmarcích.

To, že je Ornith postavený na Gemma a Qwen, je transparentně uvedeno, ale stojí za zmínku - když pak tabulka srovnává Ornith-397B s Qwen 3.5-397B, je to zčásti srovnání modelu s jeho vlastním základem po dotrénování. Není to podvod, ale je dobré vědět, na čem se ten skok měří.

Self-scaffolding: model, který si píše vlastní postup

Tady je inovace, kvůli které Ornith stojí za pozornost. Aby ale dávala smysl, je potřeba rozlišit dva pojmy, které se v agentním codingu pletou.

Harness je vnější běhový rámec, ve kterém model jako agent pracuje - smyčka, která volá nástroje, parsuje výstup, opakuje pokusy, drží kontext. Jsou to konkrétní existující frameworky jako OpenHands, Terminus nebo Claude Code. Harness je sdílený napříč úlohami a obvykle ho navrhuje člověk.

Scaffold je v Ornithově pojetí ta vnitřní strategie uvnitř toho rámce pro konkrétní úlohu - jak si model vede paměť, jak ošetřuje chyby, jak orchestruje vlastní kroky. A přesně tuhle vnitřní vrstvu nechává Ornith model evolvovat sám.

Místo lidsky navrženého harnessu sdíleného přes celou kategorii úloh Ornith zachází se scaffoldem jako s učitelným objektem, který se vyvíjí spolu s modelem. Každý krok posilovaného učení probíhá ve dvou fázích: model nejdřív na základě úlohy a dříve použitého scaffoldu navrhne vylepšený scaffold, a teprve pod ním vygeneruje řešení. Odměna z výsledku se propaguje do obou fází, takže se model optimalizuje nejen na lepší odpovědi, ale i na lepší orchestraci, která je vyvolá. Opakováním přes celý trénink vzniká smyčka, kde se strategie průběžně mutují a vybírají směrem k těm, které vedou k vyšší odměně. Specifické postupy pro jednotlivé kategorie úloh tak vznikají automaticky, bez ručního návrhu.

Poctivost o reward hackingu

Tahle část si zaslouží uznání, protože je vzácně otevřená. DeepReinforce přiznává, že nechat model psát vlastní scaffold přirozeně otevírá dveře reward hackingu - tedy snaze ošálit verifikátor místo splnění úlohy. Model se může naučit přečíst viditelné testovací soubory a natvrdo zapsat očekávané výstupy, vytvořit kontrolovaný soubor jen naoko, nebo zkopírovat vzorové řešení, pokud je v prostředí přítomné.

Obrana má tři vrstvy. Vnější hranice důvěry je pevná - prostředí, sada nástrojů a izolace testů jsou neměnné a mimo dosah modelu, který smí evolvovat jen vnitřní strategii. Deterministický monitor pak hlídá tuto hranici a každému pokusu číst zadržené cesty nebo měnit verifikační skripty přiřadí nulovou odměnu. A protože podvod na úrovni záměru může probíhat i v rámci povolených nástrojů, zmrazený LLM soudce funguje jako veto nad verifikátorem.

Tahle úroveň transparentnosti o tom, jak model může selhat, je něco, co většina vendorů nezveřejní. Zároveň nepřímo potvrzuje, jak reálné riziko reward hacking u samoučících se systémů je.

Benchmarky: dobře doložené, ale selektivně rámované

Po sérii modelů s chudou nebo čistě vlastní dokumentací je Ornith osvěžení. Benchmarky mají plné footnoty - pro každý test je uveden harness, teplota, top_p, velikost kontextu, timeout i počet běhů. To je přesně to, co u většiny předchozích vydání chybělo.

Benchmark	Ornith-397B	Opus 4.7	Opus 4.8	GLM-5.2	DeepSeek V4 Pro
Terminal-Bench 2.1 (Terminus-2)	77,5	70,3	85,0	81,0	64,0
Terminal-Bench 2.1 (Claude Code)	78,2	69,7	78,9	82,7	66,5
SWE-Bench Verified	82,4	80,8	87,6	–	80,6
SWE-Bench Pro	62,2	64,3	69,2	62,1	55,4

Vlajkový Ornith-397B dosahuje 82,4 na SWE-Bench Verified a 77,5 na Terminal-Bench 2.1. Menší varianty jsou na svou velikost působivé - 35B model překonává Qwen 3.5-397B na Terminal-Bench (64,2 proti 53,5), tedy model jedenáctkrát menší poráží konkurenta na témže testu. Edge varianta 9B dosahuje 69,4 na SWE-Bench Verified, což na devítimiliardový model není málo.

Tady je ale nutná výhrada k rámování. Headline DeepReinforce tvrdí, že Ornith-397B se vyrovná Claude Opus 4.7 a překonává ho na obou hlavních benchmarcích. To na Opus 4.7 sedí. Jenže tatáž tabulka obsahuje i Opus 4.8, který je výrazně lepší - 87,6 na SWE-Bench Verified, 85,0 na Terminal-Bench, 69,2 na SWE-Bench Pro. Headline tedy pečlivě srovnává se starší generací Opus, zatímco proti aktuálnímu Opus 4.8 Ornith zaostává. Je legitimní tvrdit, že jde o nejlepší open-source model své velikosti, ale srovnání s o generaci starším closed modelem vede čtenáře k vlídnějšímu referenčnímu bodu.

A na SWE-Bench Pro Ornith-397B (62,2) zaostává nejen za Opus 4.8 (69,2), ale i za Opus 4.7 (64,3). Headline tento benchmark nezdůrazňuje a vybírá ty, kde model vede. Konečně, byť jsou footnoty výborné, čísla měřila DeepReinforce sama, včetně části hodnot konkurence - takže i tady platí, že jde o self-report, jen nadprůměrně zdokumentovaný.

Harness jako proměnná, kterou Ornith sám demonstruje

Stojí za to zastavit se u jednoho detailu v tabulce, protože ilustruje věc důležitější než samotná čísla. Ornith uvádí Terminal-Bench 2.1 dvakrát - jednou přes rámec Terminus-2, jednou přes Claude Code. Tentýž 397B model dává 77,5 přes Terminus-2 a 78,2 přes Claude Code. U Opus 4.8 je ten rozdíl ještě výraznější: 85,0 přes Terminus-2 proti 78,9 přes Claude Code, tedy přes šest bodů jen změnou běhového rámce.

To je konkrétní důkaz toho, co u agentního codingu obecně platí: výměna harnessu dokáže pohnout skóre o jednotky až desítky bodů na témže modelu. Na SWE-Bench Pro může samotný harness posunout výsledek o deset až dvacet bodů. Proto je srovnávání čísel napříč vendory zrádné - pokud každý měřil pod jiným rámcem, neporovnáváte modely, ale kombinace modelu a obalu.

A právě tady se Ornith potkává se Sakana Fugu z minulých dní. Obě vydání míří na tutéž vrstvu kolem modelu, jen z opačných konců. Fugu řeší obal zvenčí - orchestruje skupinu hotových modelů a stará se o koordinaci mimo ně. Ornith řeší obal zevnitř - učí jeden model generovat si vlastní strategii během tréninku. Společné je poznání, že schopný model je dnes jen půlka rovnice a druhou půlku tvoří to, co ho obklopuje. Měření tomu ostatně jde naproti: Artificial Analysis ve verzi 4.1 svého Intelligence Indexu posunula váhu právě k delším agentním úlohám, kde na obalu záleží.

Není to ale tak, že by obal nahradil model. Opus 4.8 vede na SWE-Bench Pro i s nejlepším dostupným rámcem konkurence, a Ornith sám je postavený na silných základech Gemma a Qwen - bez schopného základního modelu by se self-scaffolding neměl o co opřít. Vrstva kolem modelu se stala druhou osou, na které se soutěží, ne náhradou té první.

Co dělat teď a na co si ještě počkat

Ornith dává smysl vyzkoušet, pokud:

Hledáte open-source coding model a chcete váhy hned k self-hostingu
Potřebujete menší model na edge - varianty 9B a 35B jsou na svou velikost silné
Zajímá vás self-scaffolding přístup a chcete ho ověřit na vlastních úlohách

Zvážit konkurenci, pokud:

Potřebujete absolutní špičku v codingu - Opus 4.8 vede na SWE-Bench Pro i Verified
Spoléháte na nezávisle ověřená data - zatím jsou jen self-reporty DeepReinforce
Pracujete s úlohami, kde Ornith podle vlastní tabulky zaostává

Co počkat a ověřit:

Nezávislé testy na standardních suitách za srovnatelných podmínek
Vlastní srovnání s přímým modelem pod stejným harnessem
Reálné chování self-scaffoldingu na vašich úlohách, ne na benchmarcích

Závěr

Ornith-1.0 je technicky jeden z nejzajímavějších modelů poslední doby, a to ze dvou důvodů. Self-scaffolding je reálná inovace - dělá z vnitřní strategie řešení učitelný objekt místo ručně psaného kódu, a otevřenost DeepReinforce ohledně reward hackingu je vzácná a věrohodná. Benchmarky jsou nadprůměrně zdokumentované, což po sérii chudě doložených vydání stojí za ocenění.

Marketing je ale potřeba číst pozorně. Headline srovnává se starším Opus 4.7, zatímco proti aktuálnímu Opus 4.8 model zaostává, a na SWE-Bench Pro nevede ani proti starší generaci. Pro praxi platí, že Ornith je silný open-source coding model, hlavně v menších velikostech, kde poměr výkonu k parametrům překvapí - ale absolutní špička v codingu zůstává u closed modelů. Skutečnou hodnotu ukáže až nezávislé měření a test na vlastní úloze pod stejným harnessem, protože jak Ornith sám dokládá, obal kolem modelu dnes rozhoduje skoro stejně jako model uvnitř.