Expert Proximity as Surrogate Rewards for Single Demonstration Imitation Learning

要約

この論文では、複数の専門家のデモンストレーションを取得するのにコストがかかるか実行不可能で、グラウンド トゥルースの報酬関数が利用できない現実世界のアプリケーション向けの実用的なアプローチである、単一デモンストレーションの模倣学習 (IL) に焦点を当てます。
複数のデモンストレーションを行う一般的な IL 設定とは対照的に、単一デモンストレーション IL では、エージェントが 1 つのエキスパート トラジェクトリにのみアクセスできます。
我々は、この設定におけるまばらな報酬信号の問題を強調し、提案した Transition Discriminator-based IL (TDIL) 手法を通じてこの問題を軽減することを提案します。
TDIL は、環境ダイナミクスを考慮したより高密度の代理報酬関数を導入することで、報酬の希薄性に対処するように設計された IRL 手法です。
この代理報酬関数は、エージェントがエキスパート状態に近い状態にナビゲートすることを奨励します。
実際には、TDIL は、代理報酬を計算するために、特定の環境で有効な遷移と無効な遷移を区別する遷移弁別器をトレーニングします。
この実験では、TDIL が既存の IL アプローチを上回り、広く採用されている 5 つの MuJoCo ベンチマークおよび「Adroit Door」ロボット環境における単一デモンストレーション IL 設定で専門家レベルのパフォーマンスを達成することが実証されました。

要約(オリジナル)

In this paper, we focus on single-demonstration imitation learning (IL), a practical approach for real-world applications where acquiring multiple expert demonstrations is costly or infeasible and the ground truth reward function is not available. In contrast to typical IL settings with multiple demonstrations, single-demonstration IL involves an agent having access to only one expert trajectory. We highlight the issue of sparse reward signals in this setting and propose to mitigate this issue through our proposed Transition Discriminator-based IL (TDIL) method. TDIL is an IRL method designed to address reward sparsity by introducing a denser surrogate reward function that considers environmental dynamics. This surrogate reward function encourages the agent to navigate towards states that are proximal to expert states. In practice, TDIL trains a transition discriminator to differentiate between valid and non-valid transitions in a given environment to compute the surrogate rewards. The experiments demonstrate that TDIL outperforms existing IL approaches and achieves expert-level performance in the single-demonstration IL setting across five widely adopted MuJoCo benchmarks as well as the ‘Adroit Door’ robotic environment.

arxiv情報

著者 Chia-Cheng Chiang,Li-Cheng Lan,Wei-Fang Sun,Chien Feng,Cho-Jui Hsieh,Chun-Yi Lee
発行日 2024-05-30 17:14:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク