Perceptron Mk1 (Mark One) je nejkvalitnější model vidění a jazyka od Perceptronu pro video a ztělesněné usuzování. Přijímá obrazové a video vstupy spárované s dotazy v přirozeném jazyce a vytváří podrobné vizuální porozumění…
Unikátní charakteristiky
Perceptron Mk1 je specializovaný vizuálně-jazykový model navržený primárně pro hluboké porozumění videu a ztělesněné uvažování. Vyniká schopností zpracovávat komplexní vizuální vstupy, avšak zaostává ve velikosti kontextového okna, které je omezeno na pouhých 32 tisíc tokenů.
Silné stránky
Multimodalita
Nativní podpora zpracování obrazu a videa pro komplexní vizuální dotazy a prostorové uvažování.
Cena vstupu
Velmi nízká cena za vstupní tokeny ($0.15/1M) umožňuje nákladově efektivní zpracování vizuálních dat, pokud se vejdou do kontextu.
Slabé stránky
Kontextové okno
Kapacita 32 768 tokenů je v porovnání se současným standardem (1M+ tokenů) výrazně omezující, zejména pro analýzu delších videí.
Cena výstupu
Asymetrický cenový model, kde je výstup 10x dražší než vstup ($1.50/1M), prodražuje generování dlouhých textových analýz.