要約
模倣学習(IL)技術は、特定のタスクで人間の行動を再現することを目的としています。
ILはその有効性と効率のために顕著になりましたが、従来の方法は、単一の効率的なポリシーを作成するために専門家から収集されたデータセットに焦点を当てることがよくあります。
最近、主に遷移レベルの多様なポリシーの学習や軌跡レベルでエントロピーの最大化を実行することに焦点を当てることにより、多様な行動のデータセットを処理するための拡張機能が提案されています。
これらの方法は多様な行動につながる可能性がありますが、デモンストレーションの実際の多様性を再現したり、制御された軌道の生成を許可するには十分ではない場合があります。
これらの欠点を克服するために、2つの重要な機能に基づいて異なる方法を提案します。a)遷移レベルだけでなく、エピソード全体にわたって一貫した動作を保証する時間的一貫性と、b)ユーザーが要件に基づいて特定の動作を選択できるようにする潜在的な動作空間を構築することで得られる制御可能性。
私たちのアプローチを、さまざまなタスクと環境のセットで最先端の方法と比較します。
プロジェクトページ:https://mathieu-petitbois.github.io/projects/swr/
要約(オリジナル)
Imitation Learning (IL) techniques aim to replicate human behaviors in specific tasks. While IL has gained prominence due to its effectiveness and efficiency, traditional methods often focus on datasets collected from experts to produce a single efficient policy. Recently, extensions have been proposed to handle datasets of diverse behaviors by mainly focusing on learning transition-level diverse policies or on performing entropy maximization at the trajectory level. While these methods may lead to diverse behaviors, they may not be sufficient to reproduce the actual diversity of demonstrations or to allow controlled trajectory generation. To overcome these drawbacks, we propose a different method based on two key features: a) Temporal Consistency that ensures consistent behaviors across entire episodes and not just at the transition level as well as b) Controllability obtained by constructing a latent space of behaviors that allows users to selectively activate specific behaviors based on their requirements. We compare our approach to state-of-the-art methods over a diverse set of tasks and environments. Project page: https://mathieu-petitbois.github.io/projects/swr/
arxiv情報
著者 | Mathieu Petitbois,Rémy Portelas,Sylvain Lamprier,Ludovic Denoyer |
発行日 | 2025-04-25 08:16:56+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google