Behavioral Cloning via Search in Embedded Demonstration Dataset

要約

行動クローン作成では、デモンストレーションのデータセットを使用して行動ポリシーを学習します。
さまざまな学習およびポリシー適応の問題を克服するために、潜在空間を使用してデモンストレーション データセットにインデックスを付け、同様の関連エクスペリエンスに即座にアクセスし、これらの状況から行動をコピーすることを提案します。
エージェントの現在の状況と選択された経験の表現が潜在空間内で分岐するまで、選択された同様の状況からのアクションをエージェントによって実行できます。
したがって、制御問題を専門家のデモンストレーションのデータセットに対する検索問題として定式化します。
ビデオ事前トレーニング モデルの潜在表現における BASALT MineRL データセットに対するアプローチをテストします。
私たちのモデルを最先端の Minecraft エージェントと比較します。
私たちのアプローチは、意味のあるデモンストレーションを効果的に復元し、さまざまなシナリオで Minecraft 環境内のエージェントの人間のような動作を示すことができます。
実験結果は、検索ベースのアプローチのパフォーマンスがトレーニング済みモデルと同等であると同時に、デモンストレーションの例を変更することでゼロショット タスクの適応が可能であることを明らかにしています。

要約(オリジナル)

Behavioural cloning uses a dataset of demonstrations to learn a behavioural policy. To overcome various learning and policy adaptation problems, we propose to use latent space to index a demonstration dataset, instantly access similar relevant experiences, and copy behavior from these situations. Actions from a selected similar situation can be performed by the agent until representations of the agent’s current situation and the selected experience diverge in the latent space. Thus, we formulate our control problem as a search problem over a dataset of experts’ demonstrations. We test our approach on BASALT MineRL-dataset in the latent representation of a Video PreTraining model. We compare our model to state-of-the-art Minecraft agents. Our approach can effectively recover meaningful demonstrations and show human-like behavior of an agent in the Minecraft environment in a wide variety of scenarios. Experimental results reveal that performance of our search-based approach is comparable to trained models, while allowing zero-shot task adaptation by changing the demonstration examples.

arxiv情報

著者 Federico Malato,Florian Leopold,Ville Hautamaki,Andrew Melnik
発行日 2023-06-15 12:25:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク