要約
大規模な非標識データセットで事前に訓練された基礎モデルは、自然言語とコンピュータービジョンに革命をもたらし、顕著な一般化能力を示し、したがって、事前トレーニングの重要性を強調しています。
しかし、ロボット工学の努力は、コストのかかるロボット注釈の必要性または物理的な世界を効果的にモデル化する表現の欠如のいずれかによって制限される同様の成功を達成するのに苦労してきました。
このホワイトペーパーでは、人間のビデオデータから学んだ低レベルの4D表現を活用して、より優れた訓練を受けたロボットモデルを生成する自動回帰ロボットモデルであるARM4Rを紹介します。
具体的には、2D表現を時間をかけて単眼の深さ推定を介して3D空間に持ち上げることで導出されたビデオからの3Dポイント追跡表現を利用することに焦点を当てています。
これらの4D表現は、ポイントとロボット状態表現の間の共有幾何学的構造を線形変換まで維持し、人間のビデオデータから低レベルのロボット制御への効率的な転送学習を可能にします。
私たちの実験は、ARM4Rが人間のビデオデータからロボット工学に効率的に転送できることを示しており、さまざまなロボット環境と構成にわたるタスクのパフォーマンスを一貫して改善します。
要約(オリジナル)
Foundation models pre-trained on massive unlabeled datasets have revolutionized natural language and computer vision, exhibiting remarkable generalization capabilities, thus highlighting the importance of pre-training. Yet, efforts in robotics have struggled to achieve similar success, limited by either the need for costly robotic annotations or the lack of representations that effectively model the physical world. In this paper, we introduce ARM4R, an Auto-regressive Robotic Model that leverages low-level 4D Representations learned from human video data to yield a better pre-trained robotic model. Specifically, we focus on utilizing 3D point tracking representations from videos derived by lifting 2D representations into 3D space via monocular depth estimation across time. These 4D representations maintain a shared geometric structure between the points and robot state representations up to a linear transformation, enabling efficient transfer learning from human video data to low-level robotic control. Our experiments show that ARM4R can transfer efficiently from human video data to robotics and consistently improves performance on tasks across various robot environments and configurations.
arxiv情報
著者 | Dantong Niu,Yuvan Sharma,Haoru Xue,Giscard Biamby,Junyi Zhang,Ziteng Ji,Trevor Darrell,Roei Herzig |
発行日 | 2025-02-18 18:59:01+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google