要約
エンドツーエンドの模倣学習は、ロボットポリシーをトレーニングするための有望なアプローチを提供します。
ただし、新しい設定への一般化は依然として大きな課題です。
大規模なロボットデモンストレーションデータセットは、一般化を誘導する可能性を示していますが、それらは拡張するためにリソース集約型です。
対照的に、人間のビデオデータは豊富で多様であり、魅力的な選択肢を提示します。
しかし、これらのヒューマンビデオデータセットにはアクションラベルがなく、模倣学習での使用を複雑にしています。
既存の方法は、接地されたアクション表現(例:ハンドポーズ)を抽出しようとしますが、結果として生じるポリシーは、人間とロボットのアクションの間の具体化のギャップを埋めるのに苦労しています。
別のアプローチを提案します。一般化可能なロボットポリシーをトレーニングするためにロボットアクションを導くための人間のビデオからの言語ベースの推論を活用します。
推論ベースのポリシーアーキテクチャの最近の進歩に基づいて、アクションフリーデータ(RAD)を通じて推論を紹介します。
Radは、ロボットデモデータ(推論とアクションラベルを使用)とアクションフリーのヒューマンビデオデータ(推論ラベルのみを使用)の両方から学習します。
ロボットデータは、モデルに推論を低レベルのアクションにマッピングするように教え、一方、アクションフリーのデータは推論機能を強化します。
さらに、ブリッジV2ベンチマークと互換性のある推論注釈を備えた3,377の人間のハンドデモの新しいデータセットをリリースし、推論主導型のロボット学習に関する将来の研究を促進することを目的としています。
私たちの実験は、RADが具体化のギャップを越えて効果的な転送を可能にし、ロボットがアクションのないデータでのみ見られるタスクを実行できることを示しています。
さらに、アクションフリーの推論データを拡大すると、新しいタスクに対するポリシーのパフォーマンスと一般化が大幅に向上します。
これらの結果は、一般化可能なロボット制御を進めるためのアクションフリーデータセットからの推論主導型の学習の約束を強調しています。
プロジェクトページ:https://rad-generalization.github.io
要約(オリジナル)
End-to-end imitation learning offers a promising approach for training robot policies. However, generalizing to new settings remains a significant challenge. Although large-scale robot demonstration datasets have shown potential for inducing generalization, they are resource-intensive to scale. In contrast, human video data is abundant and diverse, presenting an attractive alternative. Yet, these human-video datasets lack action labels, complicating their use in imitation learning. Existing methods attempt to extract grounded action representations (e.g., hand poses), but resulting policies struggle to bridge the embodiment gap between human and robot actions. We propose an alternative approach: leveraging language-based reasoning from human videos-essential for guiding robot actions-to train generalizable robot policies. Building on recent advances in reasoning-based policy architectures, we introduce Reasoning through Action-free Data (RAD). RAD learns from both robot demonstration data (with reasoning and action labels) and action-free human video data (with only reasoning labels). The robot data teaches the model to map reasoning to low-level actions, while the action-free data enhances reasoning capabilities. Additionally, we will release a new dataset of 3,377 human-hand demonstrations with reasoning annotations compatible with the Bridge V2 benchmark and aimed at facilitating future research on reasoning-driven robot learning. Our experiments show that RAD enables effective transfer across the embodiment gap, allowing robots to perform tasks seen only in action-free data. Furthermore, scaling up action-free reasoning data significantly improves policy performance and generalization to novel tasks. These results highlight the promise of reasoning-driven learning from action-free datasets for advancing generalizable robot control. Project page: https://rad-generalization.github.io
arxiv情報
著者 | Jaden Clark,Suvir Mirchandani,Dorsa Sadigh,Suneel Belkhale |
発行日 | 2025-02-06 02:43:23+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google