RL Zero: Zero-Shot Language to Behaviors without any Supervision

要約

人間は与えられた報酬関数の最適な動作を予測できないことが多く、貧弱な報酬設計や報酬ハッキングにつながるため、報酬は依然として強化学習のタスクを指定する解釈できない方法です。
言語は、エージェントに意図を伝え、報酬設計をバイパスするための魅力的な方法を提供しますが、そのための以前の取り組みは、コストがかかり拡張性のないラベル付け作業によって制限されていました。
この研究では、ポリシーを取得するためのゼロショット方式でグラウンディング言語命令に代わる完全に教師なしの方法を提案します。
私たちは、想像、投影、模倣の形式をとるソリューションを提示します。エージェントは、タスクの言語記述に対応する観察シーケンスを想像し、想像したシーケンスをターゲット ドメインに投影し、それをポリシーに基づいて根拠付けします。
ビデオ言語モデルを使用すると、インターネット規模のビデオとテキストのマッピングから学習したタスクの知識を活用したタスクの説明を想像できます。
これらの世代を政策に定着させるには依然として課題が残っています。
この研究では、最初に教師なし学習学習エージェントの実際の観察に想像シーケンスを基礎付け、学習学習を模倣する閉形式ソリューションを使用することで、言語から行動へのゼロショット ポリシーを達成できることを示します。
根拠に基づいた観察を模倣します。
私たちのメソッドである RLZero は、シミュレートされたドメイン上のさまざまなタスクについて、監視なしでゼロショット言語から動作生成能力を示すことを私たちの知る限り初めてのものです。
さらに、RLZero が YouTube からスクレイピングされたビデオなど、クロスエンティティ化されたビデオからゼロショットでポリシーを生成できることも示します。

要約(オリジナル)

Rewards remain an uninterpretable way to specify tasks for Reinforcement Learning, as humans are often unable to predict the optimal behavior of any given reward function, leading to poor reward design and reward hacking. Language presents an appealing way to communicate intent to agents and bypass reward design, but prior efforts to do so have been limited by costly and unscalable labeling efforts. In this work, we propose a method for a completely unsupervised alternative to grounding language instructions in a zero-shot manner to obtain policies. We present a solution that takes the form of imagine, project, and imitate: The agent imagines the observation sequence corresponding to the language description of a task, projects the imagined sequence to our target domain, and grounds it to a policy. Video-language models allow us to imagine task descriptions that leverage knowledge of tasks learned from internet-scale video-text mappings. The challenge remains to ground these generations to a policy. In this work, we show that we can achieve a zero-shot language-to-behavior policy by first grounding the imagined sequences in real observations of an unsupervised RL agent and using a closed-form solution to imitation learning that allows the RL agent to mimic the grounded observations. Our method, RLZero, is the first to our knowledge to show zero-shot language to behavior generation abilities without any supervision on a variety of tasks on simulated domains. We further show that RLZero can also generate policies zero-shot from cross-embodied videos such as those scraped from YouTube.

arxiv情報

著者 Harshit Sikchi,Siddhant Agarwal,Pranaya Jajoo,Samyak Parajuli,Caleb Chuck,Max Rudolph,Peter Stone,Amy Zhang,Scott Niekum
発行日 2024-12-07 18:31:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.GR, cs.LG, cs.RO パーマリンク