SAM-E: Leveraging Visual Foundation Model with Sequence Imitation for Embodied Manipulation

要約

3D 操作におけるマルチタスクの模倣ポリシーを取得するには、シーンの理解とアクションの予測の点で課題が生じます。
現在の方法では、3D 表現とマルチビュー 2D 表現の両方を使用して、ロボットのエンドエフェクターの姿勢を予測します。
しかし、依然としてかなりの量の高品質なロボットの軌道が必要であり、目に見えないタスクの一般化が限られていることと、長期的な推論での非効率な実行に悩まされています。
この論文では、一般化可能なシーンの理解と長期的な行動推論のためのシーケンス模倣のための視覚基盤モデルを活用することにより、ロボット操作のための新しいアーキテクチャである SAM-E を提案します。
具体的には、タスク関連の特徴を抽出するための基礎モデルとして、膨大な数の画像とプロンプト可能なマスクで事前トレーニングされた Segment Anything (SAM) を採用し、具体化されたシナリオをよりよく理解するためにロボット データに対してパラメーター効率の高い微調整を採用します。

長期的な推論に対処するために、シングル パスでのアクション シーケンスの予測を可能にし、特に実行効率を向上させる新しいマルチチャネル ヒートマップを開発しました。
さまざまな命令追従タスクの実験結果は、SAM-E がベースラインと比較して高い実行効率で優れたパフォーマンスを達成し、新しいタスクへの少数ショットの適応における汎用性も大幅に向上することを示しています。

要約(オリジナル)

Acquiring a multi-task imitation policy in 3D manipulation poses challenges in terms of scene understanding and action prediction. Current methods employ both 3D representation and multi-view 2D representation to predict the poses of the robot’s end-effector. However, they still require a considerable amount of high-quality robot trajectories, and suffer from limited generalization in unseen tasks and inefficient execution in long-horizon reasoning. In this paper, we propose SAM-E, a novel architecture for robot manipulation by leveraging a vision-foundation model for generalizable scene understanding and sequence imitation for long-term action reasoning. Specifically, we adopt Segment Anything (SAM) pre-trained on a huge number of images and promptable masks as the foundation model for extracting task-relevant features, and employ parameter-efficient fine-tuning on robot data for a better understanding of embodied scenarios. To address long-horizon reasoning, we develop a novel multi-channel heatmap that enables the prediction of the action sequence in a single pass, notably enhancing execution efficiency. Experimental results from various instruction-following tasks demonstrate that SAM-E achieves superior performance with higher execution efficiency compared to the baselines, and also significantly improves generalization in few-shot adaptation to new tasks.

arxiv情報

著者 Junjie Zhang,Chenjia Bai,Haoran He,Wenke Xia,Zhigang Wang,Bin Zhao,Xiu Li,Xuelong Li
発行日 2024-05-30 00:32:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.RO パーマリンク