KeyMPs: One-Shot Vision-Language Guided Motion Generation by Sequencing DMPs for Occlusion-Rich Tasks

要約

動的運動プリミティブ(DMP)は、滑らかなロボットモーションがモジュラーパラメーターにエンコードされる柔軟なフレームワークを提供します。
ただし、ビジョンや言語などのロボット工学で一般的に使用されているマルチモーダル入力をフレームワークに統合する際の課題に直面しています。
DMPのポテンシャルを完全に最大化するために、マルチモーダル入力を処理できるようにすることが不可欠です。
さらに、観測閉塞がそのようなタスクで簡単に解釈される可能性があるため、ワンショットの複雑なモーション生成を必要とするオブジェクト中心のタスクを処理するDMPの機能を拡張することも目指しています(例えば、ケーキのアイシングのナイフ閉塞、生地の練習における手閉塞など)。
有望なアプローチは、マルチモーダルデータを処理し、高レベルの概念を把握できるビジョン言語モデル(VLM)を活用することです。
ただし、通常、低レベルのモーションの詳細を直接推測するのに十分な知識と能力が欠けており、代わりに高レベルの指示と低レベルのコントロールの間の橋のみとして機能します。
この制限に対処するために、VLMSとDMPのシーケンスを組み合わせたフレームワークであるKeypoint Pairs Guention Guided Movement Primitives(KeyMPS)とラベル付けされたキーワードを提案します。
KeyMPSは、VLMSの高レベルの推論機能を使用して、キーワードラベルのプリミティブ選択とVLMSの空間認識を介して参照プリミティブを選択して、キーポイントペア生成を通じて全体的な動きを一般化することによりDMPをシーケンスするために使用される空間スケーリングパラメーターを生成します。
閉塞が豊富な操作タスク、特にシミュレートされた環境と実際の両方の環境の両方でオブジェクト切断実験を通じてアプローチを検証し、VLMSサポートを統合する他のDMPベースの方法よりも優れたパフォーマンスを実証します。

要約(オリジナル)

Dynamic Movement Primitives (DMPs) provide a flexible framework wherein smooth robotic motions are encoded into modular parameters. However, they face challenges in integrating multimodal inputs commonly used in robotics like vision and language into their framework. To fully maximize DMPs’ potential, enabling them to handle multimodal inputs is essential. In addition, we also aim to extend DMPs’ capability to handle object-focused tasks requiring one-shot complex motion generation, as observation occlusion could easily happen mid-execution in such tasks (e.g., knife occlusion in cake icing, hand occlusion in dough kneading, etc.). A promising approach is to leverage Vision-Language Models (VLMs), which process multimodal data and can grasp high-level concepts. However, they typically lack enough knowledge and capabilities to directly infer low-level motion details and instead only serve as a bridge between high-level instructions and low-level control. To address this limitation, we propose Keyword Labeled Primitive Selection and Keypoint Pairs Generation Guided Movement Primitives (KeyMPs), a framework that combines VLMs with sequencing of DMPs. KeyMPs use VLMs’ high-level reasoning capability to select a reference primitive through keyword labeled primitive selection and VLMs’ spatial awareness to generate spatial scaling parameters used for sequencing DMPs by generalizing the overall motion through keypoint pairs generation, which together enable one-shot vision-language guided motion generation that aligns with the intent expressed in the multimodal input. We validate our approach through an occlusion-rich manipulation task, specifically object cutting experiments in both simulated and real-world environments, demonstrating superior performance over other DMP-based methods that integrate VLMs support.

arxiv情報

著者 Edgar Anarossi,Yuhwan Kwon,Hirotaka Tahara,Shohei Tanaka,Keisuke Shirai,Masashi Hamaya,Cristian C. Beltran-Hernandez,Atsushi Hashimoto,Takamitsu Matsubara
発行日 2025-04-14 09:16:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク