NVIDIA відкрила LocateAnything-3B: точна локалізація об’єктів
NVIDIA відкрила вихідний код моделі візуальної локалізації LocateAnything-3B.
Модель уміє знаходити об’єкти навіть у дуже щільних сценах. Наприклад, на зображенні з десятками міньйонів, що стоять впритул один до одного, вона коректно виділяє кожного окремою рамкою.
Головна відмінність від більшості наявних моделей — це спосіб генерації обмежувальних рамок. Зазвичай координати (x1, y1, x2, y2) передбачаються послідовно, цифра за цифрою. Це уповільнює роботу, а помилки на ранніх етапах можуть впливати на наступні координати, особливо якщо об’єктів багато.
У LocateAnything-3B використовується паралельне декодування: модель одразу передбачає готові рамки цілком, а не будує їх поетапно. Завдяки цьому детекція стає стабільнішою, особливо в сценах із великою кількістю об’єктів.
Для навчання використовувалися не лише класичні датасети для розпізнавання об’єктів, а й дані для розпізнавання інтерфейсів, OCR і аналізу структури документів. Тому модель уміє знаходити як реальні об’єкти, так і елементи користувацького інтерфейсу та текстові області.
Модель містить 3 млрд параметрів і поширюється з відкритим вихідним кодом.