Moto: Latent Motion Token as the Bridging Language for Robot Manipulation

要約

広範なコーパスで事前トレーニングされた大規模言語モデルの最近の開発では、最小限の微調整でさまざまな自然言語処理タスクで大きな成功を収めています。
この成功は、アクションラベル付きデータの高コストによって長い間制約されてきたロボット工学に新たな可能性をもたらします。
私たちは、豊富な「コーパス」として利用可能なインタラクション関連の知識を含む豊富なビデオ データを考慮すると、同様の生成的事前トレーニング アプローチを効果的に適用してロボット学習を強化できるでしょうか?
主な課題は、ロボット操作タスクに利益をもたらす自己回帰事前トレーニングの効果的な表現を特定することです。
人間が動的環境を観察することで新しいスキルを学習する方法にヒントを得て、効果的なロボット学習では、低レベルのアクションと密接に結びついており、ハードウェアに依存しないモーション関連の知識を重視し、学習したモーションを実際のロボットに容易に移行できるようにする必要があると提案します。
アクション。
この目的を達成するために、Moto を導入します。Moto は、Latent Motion Tokenizer によってビデオ コンテンツを潜在モーション トークン シーケンスに変換し、教師なしの方法でビデオからモーションの橋渡し「言語」を学習します。
モーション トークンの自動回帰を通じて Moto-GPT を事前トレーニングし、多様な視覚的なモーションの知識をキャプチャできるようにします。
事前トレーニングの後、Moto-GPT は、意味的に解釈可能なモーション トークンを生成し、妥当なモーション軌道を予測し、出力尤度を通じて軌道の合理性を評価する有望な能力を実証します。
学習したモーションを実際のロボットの動作に先立って転送するために、潜在的なモーション トークンの予測と実際のロボットの制御をシームレスに橋渡しする共同微調整戦略を実装します。
広範な実験により、微調整された Moto-GPT がロボット操作ベンチマークで優れた堅牢性と効率性を示すことが示され、ビデオ データから下流の視覚操作タスクに知識を伝達する際の有効性が強調されました。

要約(オリジナル)

Recent developments in Large Language Models pre-trained on extensive corpora have shown significant success in various natural language processing tasks with minimal fine-tuning. This success offers new promise for robotics, which has long been constrained by the high cost of action-labeled data. We ask: given the abundant video data containing interaction-related knowledge available as a rich ‘corpus’, can a similar generative pre-training approach be effectively applied to enhance robot learning? The key challenge is to identify an effective representation for autoregressive pre-training that benefits robot manipulation tasks. Inspired by the way humans learn new skills through observing dynamic environments, we propose that effective robotic learning should emphasize motion-related knowledge, which is closely tied to low-level actions and is hardware-agnostic, facilitating the transfer of learned motions to actual robot actions. To this end, we introduce Moto, which converts video content into latent Motion Token sequences by a Latent Motion Tokenizer, learning a bridging ‘language’ of motion from videos in an unsupervised manner. We pre-train Moto-GPT through motion token autoregression, enabling it to capture diverse visual motion knowledge. After pre-training, Moto-GPT demonstrates the promising ability to produce semantically interpretable motion tokens, predict plausible motion trajectories, and assess trajectory rationality through output likelihood. To transfer learned motion priors to real robot actions, we implement a co-fine-tuning strategy that seamlessly bridges latent motion token prediction and real robot control. Extensive experiments show that the fine-tuned Moto-GPT exhibits superior robustness and efficiency on robot manipulation benchmarks, underscoring its effectiveness in transferring knowledge from video data to downstream visual manipulation tasks.

arxiv情報

著者 Yi Chen,Yuying Ge,Yizhuo Li,Yixiao Ge,Mingyu Ding,Ying Shan,Xihui Liu
発行日 2024-12-05 18:57:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.RO パーマリンク