Vintix: Action Model via In-Context Reinforcement Learning

要約

コンテキスト内の強化学習(ICRL)は、文脈的に大きな言語モデルをどのように適応させるかに類似して、試行錯誤の相互作用を通じて推論時間に学習するジェネラリストエージェントを育成するための有望なパラダイムを表しますが、報酬の最大化に焦点を当てています。
ただし、おもちゃのタスクや単一ドメインの設定を超えたICRLのスケーラビリティは、依然としてオープンな課題です。
この作業では、コンテスト内の強化学習を通じて学習行動が可能な固定されたクロスドメインモデルを導入することにより、ICRLのスケーリングに向けた最初のステップを提示します。
我々の結果は、ICRLを促進するために設計されたフレームワークであるアルゴリズムの蒸留が、汎用性の高いアクションモデルを構築するために、専門家の蒸留に魅力的で競争力のある代替品を提供することを示しています。
これらの調査結果は、ジェネラリストの意思決定システムのスケーラブルなアプローチとしてのICRLの可能性を強調しています。
https://github.com/dunnolab/vintixでリリースされるコード

要約(オリジナル)

In-Context Reinforcement Learning (ICRL) represents a promising paradigm for developing generalist agents that learn at inference time through trial-and-error interactions, analogous to how large language models adapt contextually, but with a focus on reward maximization. However, the scalability of ICRL beyond toy tasks and single-domain settings remains an open challenge. In this work, we present the first steps toward scaling ICRL by introducing a fixed, cross-domain model capable of learning behaviors through in-context reinforcement learning. Our results demonstrate that Algorithm Distillation, a framework designed to facilitate ICRL, offers a compelling and competitive alternative to expert distillation to construct versatile action models. These findings highlight the potential of ICRL as a scalable approach for generalist decision-making systems. Code to be released at https://github.com/dunnolab/vintix

arxiv情報

著者 Andrey Polubarov,Nikita Lyubaykin,Alexander Derevyagin,Ilya Zisman,Denis Tarasov,Alexander Nikulin,Vladislav Kurenkov
発行日 2025-01-31 18:57:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク