NaturalVLM: Leveraging Fine-grained Natural Language for Affordance-Guided Visual Manipulation

要約

ホームアシスタントロボットが人間の言語の指示に基づいて多様な 3D オブジェクトを認識し、操作できるようにすることは極めて重要な課題です。
これまでの研究は主に、「一番上の引き出しをスライドさせて開ける」といった、単純化されたタスク指向の指示に焦点を当てていました。
しかし、現実世界のタスクの多くは、複雑な多段階の推論を必要とし、人間の指示がなければ、ロボットの操作は非常に困難になります。
これらの課題に対処するために、私たちは包括的なベンチマークである NrVLM を導入しました。このベンチマークは 15 の異なる操作タスクで構成され、きめ細かい言語命令で細心の注意を払って注釈が付けられた 4500 以上のエピソードが含まれています。
長期的なタスクのプロセスをいくつかのステップに分割し、各ステップに自然言語による指示を与えます。
さらに、きめ細かい指示に従って操作タスクを段階的に完了する新しい学習フレームワークを提案します。
具体的には、まず視覚的な観察とエンドエフェクターの現在の状態を考慮して、実行する命令を特定します。
その後、私たちのアプローチは、操作を意識したクロスモダリティの調整を促進するために、アクションプロンプトと知覚プロンプトを通じて明示的な学習を促進します。
視覚的観察と言語的ガイダンスの両方を活用して、私たちのモデルは、接触点やエンドエフェクターのポーズなど、操作のための実用的な予測のシーケンスを出力します。
提案されたベンチマーク NrVLM を使用してメソッドとベースラインを評価します。
実験結果は、私たちのアプローチの有効性を示しています。
詳細については、https://sites.google.com/view/naturalvlm を参照してください。

要約(オリジナル)

Enabling home-assistant robots to perceive and manipulate a diverse range of 3D objects based on human language instructions is a pivotal challenge. Prior research has predominantly focused on simplistic and task-oriented instructions, i.e., ‘Slide the top drawer open’. However, many real-world tasks demand intricate multi-step reasoning, and without human instructions, these will become extremely difficult for robot manipulation. To address these challenges, we introduce a comprehensive benchmark, NrVLM, comprising 15 distinct manipulation tasks, containing over 4500 episodes meticulously annotated with fine-grained language instructions. We split the long-term task process into several steps, with each step having a natural language instruction. Moreover, we propose a novel learning framework that completes the manipulation task step-by-step according to the fine-grained instructions. Specifically, we first identify the instruction to execute, taking into account visual observations and the end-effector’s current state. Subsequently, our approach facilitates explicit learning through action-prompts and perception-prompts to promote manipulation-aware cross-modality alignment. Leveraging both visual observations and linguistic guidance, our model outputs a sequence of actionable predictions for manipulation, including contact points and end-effector poses. We evaluate our method and baselines using the proposed benchmark NrVLM. The experimental results demonstrate the effectiveness of our approach. For additional details, please refer to https://sites.google.com/view/naturalvlm.

arxiv情報

著者 Ran Xu,Yan Shen,Xiaoqi Li,Ruihai Wu,Hao Dong
発行日 2024-03-13 09:12:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク