cpaua·4 год тому1 хв4

NVIDIA відкрила LocateAnything-3B: точна локалізація об’єктів

Nvidia Комп’ютерний зір Детекція об’єктів Open Source AI-моделі

Read in English

NVIDIA відкрила вихідний код моделі візуальної локалізації LocateAnything-3B.

Модель уміє знаходити об’єкти навіть у дуже щільних сценах. Наприклад, на зображенні з десятками міньйонів, що стоять впритул один до одного, вона коректно виділяє кожного окремою рамкою.

Головна відмінність від більшості наявних моделей — це спосіб генерації обмежувальних рамок. Зазвичай координати (x1, y1, x2, y2) передбачаються послідовно, цифра за цифрою. Це уповільнює роботу, а помилки на ранніх етапах можуть впливати на наступні координати, особливо якщо об’єктів багато.

У LocateAnything-3B використовується паралельне декодування: модель одразу передбачає готові рамки цілком, а не будує їх поетапно. Завдяки цьому детекція стає стабільнішою, особливо в сценах із великою кількістю об’єктів.
Для навчання використовувалися не лише класичні датасети для розпізнавання об’єктів, а й дані для розпізнавання інтерфейсів, OCR і аналізу структури документів. Тому модель уміє знаходити як реальні об’єкти, так і елементи користувацького інтерфейсу та текстові області.

Модель містить 3 млрд параметрів і поширюється з відкритим вихідним кодом.

Поділитися:

Автор

Адміністратор блогу VibeCode. Пишу про vibe coding, AI та open source.

Коментарі

Щоб залишити коментар, увійдіть або зареєструйтеся

Завантаження...

Схожі статті

NVIDIA SkillSpector: open-source інструмент для пошуку вразливостей

NVIDIA випустила SkillSpector — open-source інструмент для пошуку вразливостей в Agent Skills: prompt injection, витоки даних, залежності та код.

PixelRAG: візуальний RAG для вебскрейпінгу без HTML-парсингу

Опенсорсний PixelRAG індексує сторінки як скриншоти, зберігає пікселі, використовує FAISS і Qwen3-VL-Embedding та підвищує точність QA.

Datalab відкрила код Lift: 9B-модель для вилучення даних з PDF

Datalab опублікувала Lift — 9B-модель для вилучення структурованих даних за JSON Schema з документів. Точність 90,2%, медіана 9,5 с.