要約
高密度の報酬を伴う強化学習 (RL) と人間が生成した軌道を伴う模倣学習 (IL) は、現代の身体化エージェントを訓練するために最も広く使用されているアプローチです。
RL は広範な報酬形成と補助的な損失を必要とし、多くの場合、長期的なタスクには遅すぎて非効率的です。
人間の監視による IL は効果的ですが、人間の軌跡を大規模に収集するには非常にコストがかかります。
この研究では、シミュレーションで最短パス プランナーを模倣することで、言語命令を与えられると、RGB センサーのみ (深度マップや GPS は使用しない) を使用して、シミュレーションと現実世界の両方でオブジェクトを巧みに移動、探索、操作できるエージェントが生成されることを示します。
座標)。
この驚くべき結果は、当社のエンドツーエンドのトランスフォーマーベースの SPOC アーキテクチャ、広範な画像拡張機能と組み合わせた強力なビジュアル エンコーダ、およびトレーニング データの劇的な規模と多様性、つまり最短パスのエキスパートの軌跡の数百万フレームによって実現されます。
40,000 のユニークな 3D アセットを含む、プロシージャルに生成された約 200,000 の家の内部で収集されました。
私たちのモデル、データ、トレーニング コード、および新しく提案された 10 タスクのベンチマーク スイート CHORES は、https://spoc-robot.github.io で入手できます。
要約(オリジナル)
Reinforcement learning (RL) with dense rewards and imitation learning (IL) with human-generated trajectories are the most widely used approaches for training modern embodied agents. RL requires extensive reward shaping and auxiliary losses and is often too slow and ineffective for long-horizon tasks. While IL with human supervision is effective, collecting human trajectories at scale is extremely expensive. In this work, we show that imitating shortest-path planners in simulation produces agents that, given a language instruction, can proficiently navigate, explore, and manipulate objects in both simulation and in the real world using only RGB sensors (no depth map or GPS coordinates). This surprising result is enabled by our end-to-end, transformer-based, SPOC architecture, powerful visual encoders paired with extensive image augmentation, and the dramatic scale and diversity of our training data: millions of frames of shortest-path-expert trajectories collected inside approximately 200,000 procedurally generated houses containing 40,000 unique 3D assets. Our models, data, training code, and newly proposed 10-task benchmarking suite CHORES are available in https://spoc-robot.github.io.
arxiv情報
著者 | Kiana Ehsani,Tanmay Gupta,Rose Hendrix,Jordi Salvador,Luca Weihs,Kuo-Hao Zeng,Kunal Pratap Singh,Yejin Kim,Winson Han,Alvaro Herrasti,Ranjay Krishna,Dustin Schwenk,Eli VanderBilt,Aniruddha Kembhavi |
発行日 | 2024-08-07 18:11:51+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google