A Smooth Sea Never Made a Skilled $\texttt{SAILOR}$: Robust Imitation via Learning to Search

要約

模倣学習に対する行動クローニング(BC)アプローチの基本的な制限は、専門家が訪れた州で専門家が行ったことのみを教えることです。
これは、BCエージェントがデモンストレーションのサポートからそれらを奪う間違いを犯したとき、彼らはしばしばそれから回復する方法を知らないことを意味します。
この意味で、BCは、エージェントに魚を魚に教えるのではなく、狭い状態で密集した監督を与えることに似ています。テスト時に見えない状況に直面しても、専門家の結果を達成することについて独立して推論できるように。
これに応じて、専門家のデモンストレーションから検索(L2)を検索することを検討します。つまり、テスト時に必要なコンポーネントを学習し、間違いを犯した後でも、専門家の結果を一致させることを計画しています。
これらには、(1)世界モデルと(2)報酬モデルが含まれます。
これらのコンポーネントと他のコンポーネントを組み合わせて、追加の人間の補正なしで安定したサンプル/相互作用効率の回復行動の学習に必要なアルゴリズムと設計の決定のセットを慎重に除去します。
3つのベンチマークからのダースの視覚操作タスクを超えて、私たちのアプローチ$ \ Texttt {Sailor} $は、同じデータでBCを介してトレーニングされた最先端の拡散ポリシーを一貫してパフォーマンスしています。
さらに、BCに使用されるデモンストレーションの量を5-10 $ \ Times $でスケールアップすると、パフォーマンスギャップが残ります。
$ \ texttt {Sailor} $は、微妙な障害を識別し、ハッキングに報いるのに堅牢であることがわかります。
私たちのコードは、https://github.com/arnavkj1995/sailorで入手できます。

要約(オリジナル)

The fundamental limitation of the behavioral cloning (BC) approach to imitation learning is that it only teaches an agent what the expert did at states the expert visited. This means that when a BC agent makes a mistake which takes them out of the support of the demonstrations, they often don’t know how to recover from it. In this sense, BC is akin to giving the agent the fish — giving them dense supervision across a narrow set of states — rather than teaching them to fish: to be able to reason independently about achieving the expert’s outcome even when faced with unseen situations at test-time. In response, we explore learning to search (L2S) from expert demonstrations, i.e. learning the components required to, at test time, plan to match expert outcomes, even after making a mistake. These include (1) a world model and (2) a reward model. We carefully ablate the set of algorithmic and design decisions required to combine these and other components for stable and sample/interaction-efficient learning of recovery behavior without additional human corrections. Across a dozen visual manipulation tasks from three benchmarks, our approach $\texttt{SAILOR}$ consistently out-performs state-of-the-art Diffusion Policies trained via BC on the same data. Furthermore, scaling up the amount of demonstrations used for BC by 5-10$\times$ still leaves a performance gap. We find that $\texttt{SAILOR}$ can identify nuanced failures and is robust to reward hacking. Our code is available at https://github.com/arnavkj1995/SAILOR .

arxiv情報

著者 Arnav Kumar Jain,Vibhakar Mohta,Subin Kim,Atiksh Bhardwaj,Juntao Ren,Yunhai Feng,Sanjiban Choudhury,Gokul Swamy
発行日 2025-06-05 17:47:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク