Zero-shot Imitation Policy via Search in Demonstration Dataset

要約

行動クローン作成では、デモンストレーションのデータセットを使用してポリシーを学習します。
計算コストのかかるトレーニング手順を克服し、ポリシー適応の問題に対処するために、事前トレーニングされた基礎モデルの潜在空間を使用してデモンストレーション データセットにインデックスを付け、同様の関連エクスペリエンスに即座にアクセスし、これらの状況から動作をコピーすることを提案します。
エージェントの現在の状況と選択された経験の表現が潜在空間内で分岐するまで、選択された同様の状況からのアクションをエージェントによって実行できます。
したがって、制御問題を専門家のデモンストレーションのデータセットに対する動的検索問題として定式化します。
ビデオ事前トレーニング モデルの潜在表現における BASALT MineRL データセットに対するアプローチをテストします。
私たちのモデルを、最先端の模倣学習ベースの Minecraft エージェントと比較します。
私たちのアプローチは、意味のあるデモンストレーションを効果的に復元し、さまざまなシナリオで Minecraft 環境内のエージェントの人間のような動作を示すことができます。
実験結果は、精度と知覚評価の点で、学習ベースのモデルよりも検索ベースのアプローチのパフォーマンスが明らかに優れていることを示しています。

要約(オリジナル)

Behavioral cloning uses a dataset of demonstrations to learn a policy. To overcome computationally expensive training procedures and address the policy adaptation problem, we propose to use latent spaces of pre-trained foundation models to index a demonstration dataset, instantly access similar relevant experiences, and copy behavior from these situations. Actions from a selected similar situation can be performed by the agent until representations of the agent’s current situation and the selected experience diverge in the latent space. Thus, we formulate our control problem as a dynamic search problem over a dataset of experts’ demonstrations. We test our approach on BASALT MineRL-dataset in the latent representation of a Video Pre-Training model. We compare our model to state-of-the-art, Imitation Learning-based Minecraft agents. Our approach can effectively recover meaningful demonstrations and show human-like behavior of an agent in the Minecraft environment in a wide variety of scenarios. Experimental results reveal that performance of our search-based approach clearly wins in terms of accuracy and perceptual evaluation over learning-based models.

arxiv情報

著者 Federco Malato,Florian Leopold,Andrew Melnik,Ville Hautamaki
発行日 2024-01-29 18:38:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク