cpaua
·1 хв4

NVIDIA відкрила LocateAnything-3B: точна локалізація об’єктів

NVIDIA відкрила вихідний код моделі візуальної локалізації LocateAnything-3B.

Модель уміє знаходити об’єкти навіть у дуже щільних сценах. Наприклад, на зображенні з десятками міньйонів, що стоять впритул один до одного, вона коректно виділяє кожного окремою рамкою.

Головна відмінність від більшості наявних моделей — це спосіб генерації обмежувальних рамок. Зазвичай координати (x1, y1, x2, y2) передбачаються послідовно, цифра за цифрою. Це уповільнює роботу, а помилки на ранніх етапах можуть впливати на наступні координати, особливо якщо об’єктів багато.

У LocateAnything-3B використовується паралельне декодування: модель одразу передбачає готові рамки цілком, а не будує їх поетапно. Завдяки цьому детекція стає стабільнішою, особливо в сценах із великою кількістю об’єктів.
Для навчання використовувалися не лише класичні датасети для розпізнавання об’єктів, а й дані для розпізнавання інтерфейсів, OCR і аналізу структури документів. Тому модель уміє знаходити як реальні об’єкти, так і елементи користувацького інтерфейсу та текстові області.

Модель містить 3 млрд параметрів і поширюється з відкритим вихідним кодом.

Поділитися:
Автор
cpaua

Адміністратор блогу VibeCode. Пишу про vibe coding, AI та open source.

Коментарі

Щоб залишити коментар, увійдіть або зареєструйтеся
Завантаження...

Схожі статті