SWBT: Similarity Weighted Behavior Transformer with the Imperfect Demonstration for Robotic Manipulation

要約

専門家のデモンストレーションから最適な制御ポリシーを学習することを目的とした模倣学習 (IL) は、ロボット操作タスクに効果的な方法です。
ただし、以前の IL 手法は、高価な専門家によるデモンストレーションのみを使用して不完全なデモンストレーションを省略するか、環境との対話やオンライン エクスペリエンスからの学習に依存しています。
ロボット操作の文脈において、私たちは上記 2 つの課題を克服し、類似性加重動作トランスフォーマー (SWBT) と呼ばれる新しいフレームワークを提案することを目指しています。
SWBT は、環境と対話することなく、専門家と不完全なデモンストレーションの両方から効果的に学習します。
順ダイナミクスや逆ダイナミクスなど、簡単に取得できる不完全なデモンストレーションが、有益な情報を学習することでネットワークを大幅に強化することを明らかにします。
私たちの知る限り、私たちはロボット操作タスクのオフライン模倣学習設定に不完全なデモンストレーションを統合することを試みた最初の企業です。
高忠実度の Sapien シミュレーター上に構築された ManiSkill2 ベンチマークと現実世界のロボット操作タスクに関する広範な実験により、提案された手法がより優れた特徴を抽出し、すべてのタスクの成功率を向上できることが実証されました。
私たちのコードは論文が受理され次第公開されます。

要約(オリジナル)

Imitation learning (IL), aiming to learn optimal control policies from expert demonstrations, has been an effective method for robot manipulation tasks. However, previous IL methods either only use expensive expert demonstrations and omit imperfect demonstrations or rely on interacting with the environment and learning from online experiences. In the context of robotic manipulation, we aim to conquer the above two challenges and propose a novel framework named Similarity Weighted Behavior Transformer (SWBT). SWBT effectively learn from both expert and imperfect demonstrations without interaction with environments. We reveal that the easy-to-get imperfect demonstrations, such as forward and inverse dynamics, significantly enhance the network by learning fruitful information. To the best of our knowledge, we are the first to attempt to integrate imperfect demonstrations into the offline imitation learning setting for robot manipulation tasks. Extensive experiments on the ManiSkill2 benchmark built on the high-fidelity Sapien simulator and real-world robotic manipulation tasks demonstrated that the proposed method can extract better features and improve the success rates for all tasks. Our code will be released upon acceptance of the paper.

arxiv情報

著者 Kun Wu,Ning Liu,Zhen Zhao,Di Qiu,Jinming Li,Zhengping Che,Zhiyuan Xu,Qinru Qiu,Jian Tang
発行日 2024-01-17 04:15:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO, I.2.9 パーマリンク