RLZero: Direct Policy Inference from Language Without In-Domain Supervision

要約

報酬仮説では、すべての目標と目的は、受信したスカラー報酬信号の最大化として理解できると述べています。
ただし、実際には、そのような報酬信号を定義することは、人間が報酬機能に対応する最適な動作を予測できないことが多いため、難しいことで有名です。
Natural Languageは、強化学習(RL)エージェントを指導するための直感的な代替手段を提供しますが、言語指導を考慮して、費用のかかる監督またはテスト時間トレーニングが必要です。
この作業では、任意の自然言語の指示からゼロショットテスト時間ポリシーの推論を取得するために、タスク固有の監視またはラベル付きの軌跡を使用して、ラベルのないオフラインインタラクションのみを使用してトレーニングされた前処理されたRLエージェントを使用する新しいアプローチを提示します。
想像、プロジェクト、模倣の3つのステップで構成されるフレームワークを紹介します。
最初に、エージェントは、ビデオ生成モデルを使用して、提供された言語の説明に対応する一連の観測値を想像します。
次に、これらの想像上の観察結果は、ターゲット環境ドメインに投影されます。
最後に、監視されていないRLを備えたターゲット環境で前処理されたエージェントは、閉じた型溶液を介して予測される観測シーケンスを即座に模倣します。
私たちの知る限り、私たちの方法であるRlzeroは、ドメイン内の監督なしで、さまざまなタスクや環境で直接的な言語から行動への生成能力を示す最初のアプローチです。
さらに、rlzeroのコンポーネントを使用して、ヒューマノイドのような複雑な実施形態であっても、YouTubeで利用可能な動画など、囲まれた動画からゼロショットを生成できることを示しています。

要約(オリジナル)

The reward hypothesis states that all goals and purposes can be understood as the maximization of a received scalar reward signal. However, in practice, defining such a reward signal is notoriously difficult, as humans are often unable to predict the optimal behavior corresponding to a reward function. Natural language offers an intuitive alternative for instructing reinforcement learning (RL) agents, yet previous language-conditioned approaches either require costly supervision or test-time training given a language instruction. In this work, we present a new approach that uses a pretrained RL agent trained using only unlabeled, offline interactions–without task-specific supervision or labeled trajectories–to get zero-shot test-time policy inference from arbitrary natural language instructions. We introduce a framework comprising three steps: imagine, project, and imitate. First, the agent imagines a sequence of observations corresponding to the provided language description using video generative models. Next, these imagined observations are projected into the target environment domain. Finally, an agent pretrained in the target environment with unsupervised RL instantly imitates the projected observation sequence through a closed-form solution. To the best of our knowledge, our method, RLZero, is the first approach to show direct language-to-behavior generation abilities on a variety of tasks and environments without any in-domain supervision. We further show that components of RLZero can be used to generate policies zero-shot from cross-embodied videos, such as those available on YouTube, even for complex embodiments like humanoids.

arxiv情報

著者 Harshit Sikchi,Siddhant Agarwal,Pranaya Jajoo,Samyak Parajuli,Caleb Chuck,Max Rudolph,Peter Stone,Amy Zhang,Scott Niekum
発行日 2025-06-01 15:15:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.GR, cs.LG, cs.RO パーマリンク