#reinforcement-learning×

cpaua·7 червня 2026 р. о 07:30

Harness-1: пошуковий агент 20B із зовнішнім harness-станом

AI-агенти Пошук інформації Дослідження LLM Навчання з підкріпленням Open Source

Harness-1 — пошуковий агент на 20B параметрів, що виносить стан пошуку в зовнішній harness-шар і конкурує з більшими моделями на довгих задачах.

881 хв0

cpaua·13 травня 2026 р. о 12:21

RL_Envs_101: скіл для швидкого створення RL-середовищ у фреймворках

Навчання з підкріпленням RL-середовища AI інструменти Open Source Інструменти для розробників

RL_Envs_101 допомагає створювати RL-середовища в OpenEnv, OpenReward, Verifiers, NemoGym тощо, з прикладами та установкою через npx.

1261 хв0