Як зменшити токени Claude Code в 3 рази: контекстна інженерія
Claude Code почав використовувати втричі менше токенів після однієї зміни:
Було: 10.4M токенів · 10 помилок · $9.21
Стало: 3.7M токенів · 0 помилок · $2.81
Причина не в моделі.
Проблема в тому, як бекенд віддає інформацію агенту. Коли контекст неповний, потужніша модель не ігнорує цю прогалину.
Вона витрачає більше токенів на міркування про відсутній контекст, запускає більше дослідницьких запитів і частіше йде в ретраї. Тому нестача контексту не зникає з переходом на потужнішу модель — вона просто починає обходитися дорожче.
Ось розбір, чому бекенди стають поглиначем токенів для агентів, як виглядає альтернативна архітектура і яка різниця за вартістю виходить на реальному проєкті.
*Як шар контекстної інженерії використовували Insforge Skills + CLI (, локально)