ManiTrend: Bridging Future Generation and Action Prediction with 3D Flow for Robotic Manipulation

要約

言語条件の操作は、言語の高レベルの抽象化のために、重要であるが挑戦的なロボットタスクです。
これに対処するために、研究者は自然言語から派生した目標表現の改善を求めました。
この論文では、言語ベースの将来のイメージ生成と細かい粒度のアクション予測との効果的なブリッジとして、シーン内の3D粒子のモーショントレンドを表す3Dフローを強調します。
この目的のために、3D粒子のダイナミクス、視力観測、操作作用を因果変圧器でモデル化する統一されたフレームワークであるManitrendを開発します。
このフレームワーク内で、3Dフロー予測の機能は、将来の画像生成とアクション予測の追加条件として機能し、ピクセルごとの時空モデリングの複雑さを軽減し、シームレスなアクションガイダンスを提供します。
さらに、3Dフローは、交差体存在のデモンストレーションで大規模な事前販売中に、欠落または不均一なアクションラベルを置き換えることができます。
2つの包括的なベンチマークでの実験は、この方法が高効率で最先端のパフォーマンスを達成することを示しています。
当社のコードとモデルのチェックポイントは、受け入れられると利用可能になります。

要約(オリジナル)

Language-conditioned manipulation is a vital but challenging robotic task due to the high-level abstraction of language. To address this, researchers have sought improved goal representations derived from natural language. In this paper, we highlight 3D flow – representing the motion trend of 3D particles within a scene – as an effective bridge between language-based future image generation and fine-grained action prediction. To this end, we develop ManiTrend, a unified framework that models the dynamics of 3D particles, vision observations and manipulation actions with a causal transformer. Within this framework, features for 3D flow prediction serve as additional conditions for future image generation and action prediction, alleviating the complexity of pixel-wise spatiotemporal modeling and providing seamless action guidance. Furthermore, 3D flow can substitute missing or heterogeneous action labels during large-scale pretraining on cross-embodiment demonstrations. Experiments on two comprehensive benchmarks demonstrate that our method achieves state-of-the-art performance with high efficiency. Our code and model checkpoints will be available upon acceptance.

arxiv情報

著者 Yuxin He,Qiang Nie
発行日 2025-02-14 09:13:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク