cpaua
·1 хв0

Відкрили коди Marlin-2B: VLM для пошуку подій у відео з таймкодами

Відкрили коди Marlin-2B: VLM для пошуку подій у відео з таймкодами
photo_3176.jpg

Відкрили вихідні коди Marlin-2B

Це компактна візуально-мовна модель для вилучення структурованої інформації з відео

Marlin донавчено під два ключові запити, які найчастіше потрібні розробникам під час роботи з відео: що відбувається і коли саме

модель у своєму класі за розміром демонструє сильні результати, конкурує з Gemini-2.5-flash за наявності лише 2B параметрів

Marlin навчали у двох режимах:

1. marlin.caption() повертає структурований JSON зі сценою та подіями, з таймкодами з точністю до секунд.

Це можна використати для генерації субтитрів до роликів у Reels, індексації відеобібліотеки або для передавання агенту контексту про те, що і коли сталося у відеопотоці.

2. marlin.find() повертає таймкоди (початок, кінець) для будь-якого запиту природною мовою щодо відео.

досить швидкий, щоб працювати прямо в циклі агента; можна використати для пошуку фрагментів відео з точністю до часток секунди

модель: Hugging FaceNemoStation/Marlin-2Bhuggingface.co/NemoStation/Marlin-2B
демо: https://vlm.nemostation.com/

Поділитися:
Автор
cpaua

Адміністратор блогу VibeCode. Пишу про vibe coding, AI та open source.

Коментарі

Щоб залишити коментар, увійдіть або зареєструйтеся
Завантаження...

Схожі статті