要約
ロボット操作におけるスケーラブルなポリシーを学習する現在の取り組みは、主に 2 つのカテゴリに分類されます。1 つは、ロボット データの広範なコレクションからの動作の複製を含む「アクション」に焦点を当て、もう 1 つは、事前トレーニング表現や表現によってモデルの一般化を強化する「ビジョン」に重点を置くものです。
大規模なビジュアル データセットを使用する生成モデル (ワールド モデルとも呼ばれます)。
この論文では、予測逆ダイナミクス モデル (PIDM) と呼ばれる、ロボットの予測された視覚状態を条件とする逆ダイナミクス モデルを使用してアクションを予測するエンドツーエンドのパラダイムを紹介します。
ビジョンとアクションの間のループを閉じることで、エンドツーエンドの PIDM はよりスケーラブルなアクション学習器となることができます。
実際には、トランスフォーマーを使用して視覚的な状態とアクションの両方を処理し、モデルを Seer と名付けます。
最初は DROID などの大規模なロボット データセットで事前トレーニングされており、データを少し微調整することで現実世界のシナリオに適応できます。
大規模なエンドツーエンドのトレーニングとビジョンとアクションの相乗効果のおかげで、Seer はシミュレーションと現実世界の実験の両方で以前の方法を大幅に上回りました。
LIBERO-LONG ベンチマークでは 13%、CALVIN ABC-D では 21%、実際のタスクでは 43% の改善を達成しました。
特に、Seer は CALVIN ABC-D ベンチマークで新しい最先端を設定し、平均長さ 4.28 を達成し、現実世界のシナリオでの高強度の外乱下での新しい物体、照明条件、および環境に対する優れた一般化を示しています。
。
コードとモデルは https://github.com/OpenRobotLab/Seer/ で公開されています。
要約(オリジナル)
Current efforts to learn scalable policies in robotic manipulation primarily fall into two categories: one focuses on ‘action,’ which involves behavior cloning from extensive collections of robotic data, while the other emphasizes ‘vision,’ enhancing model generalization by pre-training representations or generative models, also referred to as world models, using large-scale visual datasets. This paper presents an end-to-end paradigm that predicts actions using inverse dynamics models conditioned on the robot’s forecasted visual states, named Predictive Inverse Dynamics Models (PIDM). By closing the loop between vision and action, the end-to-end PIDM can be a better scalable action learner. In practice, we use Transformers to process both visual states and actions, naming the model Seer. It is initially pre-trained on large-scale robotic datasets, such as DROID, and can be adapted to realworld scenarios with a little fine-tuning data. Thanks to large-scale, end-to-end training and the synergy between vision and action, Seer significantly outperforms previous methods across both simulation and real-world experiments. It achieves improvements of 13% on the LIBERO-LONG benchmark, 21% on CALVIN ABC-D, and 43% in real-world tasks. Notably, Seer sets a new state-of-the-art on CALVIN ABC-D benchmark, achieving an average length of 4.28, and exhibits superior generalization for novel objects, lighting conditions, and environments under high-intensity disturbances on real-world scenarios. Code and models are publicly available at https://github.com/OpenRobotLab/Seer/.
arxiv情報
著者 | Yang Tian,Sizhe Yang,Jia Zeng,Ping Wang,Dahua Lin,Hao Dong,Jiangmiao Pang |
発行日 | 2024-12-19 17:52:50+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google