Відкрили коди Marlin-2B: VLM для пошуку подій у відео з таймкодами
Відкрили вихідні коди Marlin-2B
Це компактна візуально-мовна модель для вилучення структурованої інформації з відео
Marlin донавчено під два ключові запити, які найчастіше потрібні розробникам під час роботи з відео: що відбувається і коли саме
модель у своєму класі за розміром демонструє сильні результати, конкурує з Gemini-2.5-flash за наявності лише 2B параметрів
Marlin навчали у двох режимах:
1. marlin.caption() повертає структурований JSON зі сценою та подіями, з таймкодами з точністю до секунд.
Це можна використати для генерації субтитрів до роликів у Reels, індексації відеобібліотеки або для передавання агенту контексту про те, що і коли сталося у відеопотоці.
2. marlin.find() повертає таймкоди (початок, кінець) для будь-якого запиту природною мовою щодо відео.
досить швидкий, щоб працювати прямо в циклі агента; можна використати для пошуку фрагментів відео з точністю до часток секунди
модель:
демо: https://vlm.nemostation.com/