HYDRA: Hybrid Robot Actions for Imitation Learning

要約

模倣学習 (IL) は、専門家のデモンストレーションを使用したロボット学習のサンプル効率的なパラダイムです。
ただし、IL を通じて学習したポリシーは、アクション予測における複合誤差により、テスト時に状態分布が変化し、これまでに見られなかった状態が発生するという問題があります。
この分布シフトを最小限に抑えるポリシーのアクション表現を選択することは、模倣学習において重要です。
これまでの研究では、複合エラーを減らすために一時的なアクションの抽象化を使用することが提案されていますが、多くの場合、ポリシーの機敏性が犠牲になったり、ドメイン固有の知識が必要になったりします。
これらのトレードオフに対処するために、疎らな高レベルのウェイポイントと密な低レベルのアクションという 2 つのレベルのアクション抽象化を備えたハイブリッド アクション空間を活用する手法である HYDRA を導入します。
HYDRA は、テスト時にアクションの抽象化を動的に切り替えて、ロボットの大まかな制御と詳細な制御の両方を可能にします。
さらに、HYDRA はアクションの再ラベル付けを採用して、データセット内のアクションの一貫性を高め、分布のシフトをさらに軽減します。
HYDRA は、コーヒーを淹れたり、パンをトーストしたりするなど、現実世界で長期にわたるタスクを伴う、7 つの困難なシミュレーション環境と現実世界の環境で、以前の模倣学習方法よりも 30 ~ 40% 優れたパフォーマンスを発揮します。
ビデオは当社の Web サイトでご覧いただけます: https://tinyurl.com/3mc6793z

要約(オリジナル)

Imitation Learning (IL) is a sample efficient paradigm for robot learning using expert demonstrations. However, policies learned through IL suffer from state distribution shift at test time, due to compounding errors in action prediction which lead to previously unseen states. Choosing an action representation for the policy that minimizes this distribution shift is critical in imitation learning. Prior work propose using temporal action abstractions to reduce compounding errors, but they often sacrifice policy dexterity or require domain-specific knowledge. To address these trade-offs, we introduce HYDRA, a method that leverages a hybrid action space with two levels of action abstractions: sparse high-level waypoints and dense low-level actions. HYDRA dynamically switches between action abstractions at test time to enable both coarse and fine-grained control of a robot. In addition, HYDRA employs action relabeling to increase the consistency of actions in the dataset, further reducing distribution shift. HYDRA outperforms prior imitation learning methods by 30-40% on seven challenging simulation and real world environments, involving long-horizon tasks in the real world like making coffee and toasting bread. Videos are found on our website: https://tinyurl.com/3mc6793z

arxiv情報

著者 Suneel Belkhale,Yuchen Cui,Dorsa Sadigh
発行日 2023-06-29 18:06:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク