要約
ピックアンドプレイスなどの準静的なロボット操作タスクとは異なり、把握不可能な操作などの動的なタスクは、特に視覚ベースの制御の場合、より大きな課題を引き起こします。
制御を成功させるには、ターゲット タスクに関連する特徴を抽出する必要があります。
視覚模倣学習設定では、これらの機能は、ビジョン バックボーンを通じてポリシー損失を逆伝播することによって学習できます。
ただし、このアプローチでは、一般化可能性が限られたタスク固有の機能を学習する傾向があります。
あるいは、学習世界モデルは、より一般化可能なビジョン バックボーンを実現できます。
学習された特徴を利用して、タスク固有のポリシーがその後トレーニングされます。
一般に、これらのモデルは、現在の状態と実行されたアクションから次の RGB 状態を予測するためにのみトレーニングされます。
ただし、RGB のみの予測では、タスクに関連するダイナミクスを完全には捉えられない可能性があります。
この研究では、ターゲットの動的状態 (ダイナミクス マッピング) を直接監視することで、より優れたダイナミクス情報に基づいた世界モデルを学習できるという仮説を立てています。
次の RGB 再構成のほかに、環境剛体の位置、速度、加速度を直接予測するためにワールド モデルもトレーニングされます。
私たちの仮説を検証するために、「バランスに到達する」と「ビンを落とす」という 2 つのタスクに合わせた、わかりにくい 2D 環境を設計しました。
最初のタスクでトレーニングすると、ダイナミクス マッピングにより、さまざまなトレーニング構成 (分離、結合、エンドツーエンド) およびポリシー アーキテクチャ (フィードフォワード、リカレント) の下でタスクのパフォーマンスが向上しました。
特に、その最も大きな影響はワールド モデルの事前トレーニングであり、成功率が 21% から 85% に向上しました。
凍結ダイナミクスに基づいた世界モデルは、ドメイン内ダイナミクスのタスクにはうまく一般化できますが、ドメイン外ダイナミクスのタスクにはうまく一般化できません。
要約(オリジナル)
Unlike quasi-static robotic manipulation tasks like pick-and-place, dynamic tasks such as non-prehensile manipulation pose greater challenges, especially for vision-based control. Successful control requires the extraction of features relevant to the target task. In visual imitation learning settings, these features can be learnt by backpropagating the policy loss through the vision backbone. Yet, this approach tends to learn task-specific features with limited generalizability. Alternatively, learning world models can realize more generalizable vision backbones. Utilizing the learnt features, task-specific policies are subsequently trained. Commonly, these models are trained solely to predict the next RGB state from the current state and action taken. But only-RGB prediction might not fully-capture the task-relevant dynamics. In this work, we hypothesize that direct supervision of target dynamic states (Dynamics Mapping) can learn better dynamics-informed world models. Beside the next RGB reconstruction, the world model is also trained to directly predict position, velocity, and acceleration of environment rigid bodies. To verify our hypothesis, we designed a non-prehensile 2D environment tailored to two tasks: ‘Balance-Reaching’ and ‘Bin-Dropping’. When trained on the first task, dynamics mapping enhanced the task performance under different training configurations (Decoupled, Joint, End-to-End) and policy architectures (Feedforward, Recurrent). Notably, its most significant impact was for world model pretraining boosting the success rate from 21% to 85%. Although frozen dynamics-informed world models could generalize well to a task with in-domain dynamics, but poorly to a one with out-of-domain dynamics.
arxiv情報
著者 | Abdullah Mustafa,Ryo Hanai,Ixchel Ramirez,Floris Erich,Ryoichi Nakajo,Yukiyasu Domae,Tetsuya Ogata |
発行日 | 2024-10-25 08:30:49+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google