要約
デモンストレーションは、報酬関数の設計が難しい環境でエージェントを学習するためのタスク仕様に代わる効果的な方法です。
ただし、ロボットの形態が複雑で直感的ではない場合、エージェントのアクション空間で専門家の動作を実証するのは困難になります。
私たちは、エージェントが環境との以前の相互作用のデータセットを持ち、観察のみの専門家によるデモンストレーションが提供されるという実際的な設定を検討します。
典型的な観察からの学習アプローチでは、トレーニングの中間ステップとして、逆ダイナミクス モデルまたは識別器の学習が必要でした。
これらの中間ワンステップ モデルのエラーは、下流のポリシーの学習または展開中にさらに悪化します。
私たちは、各アクションが専門家の訪問分布からのエージェントの乖離にどのような影響を与えるかを定量化する複数ステップの効用関数を直接学習することで、これらの制限を克服します。
二元性の原理を使用して、専門家のアクションを必要とせずに、任意の準最適データを活用して模倣ポリシーを学習できるアルゴリズムである DILO (Dual Imitation Learning from Observations) を導き出します。
DILO は、観察からの学習問題を単に俳優と批評家を学習する問題に削減し、バニラのオフライン RL と同様の複雑さを伴います。
これにより、DILO は高次元の観測に適切にスケールし、全体的にパフォーマンスの向上を実証できます。
プロジェクト ページ (コードとビデオ): $\href{https://hari-sikchi.github.io/dilo/}{\text{hari-sikchi.github.io/dilo/}}$
要約(オリジナル)
Demonstrations are an effective alternative to task specification for learning agents in settings where designing a reward function is difficult. However, demonstrating expert behavior in the action space of the agent becomes unwieldy when robots have complex, unintuitive morphologies. We consider the practical setting where an agent has a dataset of prior interactions with the environment and is provided with observation-only expert demonstrations. Typical learning from observations approaches have required either learning an inverse dynamics model or a discriminator as intermediate steps of training. Errors in these intermediate one-step models compound during downstream policy learning or deployment. We overcome these limitations by directly learning a multi-step utility function that quantifies how each action impacts the agent’s divergence from the expert’s visitation distribution. Using the principle of duality, we derive DILO(Dual Imitation Learning from Observations), an algorithm that can leverage arbitrary suboptimal data to learn imitating policies without requiring expert actions. DILO reduces the learning from observations problem to that of simply learning an actor and a critic, bearing similar complexity to vanilla offline RL. This allows DILO to gracefully scale to high dimensional observations, and demonstrate improved performance across the board. Project page (code and videos): $\href{https://hari-sikchi.github.io/dilo/}{\text{hari-sikchi.github.io/dilo/}}$
arxiv情報
著者 | Harshit Sikchi,Caleb Chuck,Amy Zhang,Scott Niekum |
発行日 | 2024-06-13 04:39:42+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google