#reinforcement-learning×

cpaua·

Harness-1: пошуковий агент 20B із зовнішнім harness-станом

Harness-1 — пошуковий агент на 20B параметрів, що виносить стан пошуку в зовнішній harness-шар і конкурує з більшими моделями на довгих задачах.

881 хв0
cpaua·

RL_Envs_101: скіл для швидкого створення RL-середовищ у фреймворках

RL_Envs_101 допомагає створювати RL-середовища в OpenEnv, OpenReward, Verifiers, NemoGym тощо, з прикладами та установкою через npx.

1261 хв0