cpaua
·1 хв4

PixelRAG: візуальний RAG для вебскрейпінгу без HTML-парсингу

Вебскрейпінг уже не буде таким, як раніше.

Вийшов PixelRAG — опенсорсний ретривер-фреймворк, який використовує зображення сторінок замість традиційного HTML-парсингу

За словами розробників, традиційні HTML-to-text пайплайни можуть втрачати понад 40% вмісту сторінки, зокрема таблиці, графіки та елементи розмітки. PixelRAG працює з документом у тому вигляді, у якому його бачить користувач після рендерингу.

Як працює пайплайн:

- Рендерить кожен документ (вебсторінки, PDF, зображення) у набір тайлів.
- Будує ембеддинги за допомогою Qwen3-VL-Embedding, донавченої через LoRA на скриншотах.
- Створює індекс FAISS і надає API для пошуку.

Якщо замінити модель-читач на потужнішу, точність зросте без переіндексації, оскільки індекс зберігає лише пікселі.

Для експериментів команда проєкту створила візуальний індекс усієї Вікіпедії — понад 30 мільйонів скриншотів. У підсумку навіть у такому форматі система перевершує найкращий текстовий RAG-бейзлайн на 18,1% у завданнях question answering лише за текстом.

Також представлено плагін для Claude Code, який дає змогу аналізувати відрендерені сторінки через скриншоти без роботи з DOM.

Увесь проєкт опубліковано у StarTrail-org/PixelRAGStarTrail-org/PixelRAG/blob/main/assets/pixelrag-paper.pdf доступі під ліцензією Apache-2.0, а в StarTrail-org/PixelRAGStarTrail-org/PixelRAG/blob/main/assets/pixelrag-paper.pdf є докладні розбори помилок, абляційні дослідження та порівняння більш ніж із 25 VLM-моделями.

Поділитися:
Автор
cpaua

Адміністратор блогу VibeCode. Пишу про vibe coding, AI та open source.

Коментарі

Щоб залишити коментар, увійдіть або зареєструйтеся
Завантаження...

Схожі статті