PixelRAG: візуальний RAG для вебскрейпінгу без HTML-парсингу
Вебскрейпінг уже не буде таким, як раніше.
Вийшов PixelRAG — опенсорсний ретривер-фреймворк, який використовує зображення сторінок замість традиційного HTML-парсингу
За словами розробників, традиційні HTML-to-text пайплайни можуть втрачати понад 40% вмісту сторінки, зокрема таблиці, графіки та елементи розмітки. PixelRAG працює з документом у тому вигляді, у якому його бачить користувач після рендерингу.
Як працює пайплайн:
- Рендерить кожен документ (вебсторінки, PDF, зображення) у набір тайлів.
- Будує ембеддинги за допомогою Qwen3-VL-Embedding, донавченої через LoRA на скриншотах.
- Створює індекс FAISS і надає API для пошуку.
Якщо замінити модель-читач на потужнішу, точність зросте без переіндексації, оскільки індекс зберігає лише пікселі.
Для експериментів команда проєкту створила візуальний індекс усієї Вікіпедії — понад 30 мільйонів скриншотів. У підсумку навіть у такому форматі система перевершує найкращий текстовий RAG-бейзлайн на 18,1% у завданнях question answering лише за текстом.
Також представлено плагін для Claude Code, який дає змогу аналізувати відрендерені сторінки через скриншоти без роботи з DOM.
Увесь проєкт опубліковано у доступі під ліцензією Apache-2.0, а в є докладні розбори помилок, абляційні дослідження та порівняння більш ніж із 25 VLM-моделями.