PixelRAG: візуальний RAG для вебскрейпінгу без HTML-парсингу

Вебскрейпінг уже не буде таким, як раніше.

Вийшов PixelRAG — опенсорсний ретривер-фреймворк, який використовує зображення сторінок замість традиційного HTML-парсингу

За словами розробників, традиційні HTML-to-text пайплайни можуть втрачати понад 40% вмісту сторінки, зокрема таблиці, графіки та елементи розмітки. PixelRAG працює з документом у тому вигляді, у якому його бачить користувач після рендерингу.

Як працює пайплайн:

- Рендерить кожен документ (вебсторінки, PDF, зображення) у набір тайлів.
- Будує ембеддинги за допомогою Qwen3-VL-Embedding, донавченої через LoRA на скриншотах.
- Створює індекс FAISS і надає API для пошуку.

Якщо замінити модель-читач на потужнішу, точність зросте без переіндексації, оскільки індекс зберігає лише пікселі.

Для експериментів команда проєкту створила візуальний індекс усієї Вікіпедії — понад 30 мільйонів скриншотів. У підсумку навіть у такому форматі система перевершує найкращий текстовий RAG-бейзлайн на 18,1% у завданнях question answering лише за текстом.

Також представлено плагін для Claude Code, який дає змогу аналізувати відрендерені сторінки через скриншоти без роботи з DOM.

Увесь проєкт опубліковано у StarTrail-org/PixelRAGStarTrail-org/PixelRAG/blob/main/assets/pixelrag-paper.pdf доступі під ліцензією Apache-2.0, а в StarTrail-org/PixelRAGStarTrail-org/PixelRAG/blob/main/assets/pixelrag-paper.pdf є докладні розбори помилок, абляційні дослідження та порівняння більш ніж із 25 VLM-моделями.

PixelRAG: візуальний RAG для вебскрейпінгу без HTML-парсингу

Коментарі

Схожі статті

Новий open-source RAG: корпус у 40 разів менший і пошук точніший

Socraticode: локальний RAG для коду без API-ключів і сетапу

zvec від Alibaba: локальний векторний пошук як SQLite для RAG