要約
デュアルアーム協同操作は、シームレスな調整と適応ダイナミクスを要求する複雑な現実世界のタスクに取り組むことに非常に有望です。
学習ベースのモーション計画の実質的な進歩にもかかわらず、ほとんどのアプローチは、特にアセンブリ、ツールの使用、および両マニュアルグレーズなどの2つのオブジェクト間の相互作用を含むシナリオで、多様な操作タスク全体で一般化し、動的で構造化されていない環境に適応するのに苦労しています。
これらの課題に対処するために、デュアルアーム協同操作における効率的な模倣学習のために、新しいVLM支援シャムフロー拡散(VLM-SFD)フレームワークを紹介します。
提案されているVLM-SFDフレームワークは、優れた適応性を示し、最小限の数の人間のデモのみから、迅速に適応し、多様な現実世界のタスクに一般化する能力を大幅に向上させます。
具体的には、シアムフロー拡散ネットワーク(SFDNET)がデュアルエンコーダーデコーダーシャムアーキテクチャを採用して、2つのターゲットオブジェクトを共有潜在スペースに埋め込み、タスク命令によって普及した拡散ベースの条件付けプロセスを採用し、2ストリームオブジェクト中心の動きを採用します。
さらに、予測された2Dモーションフローが3D空間にシームレスにマップされ、事前に訓練されたビジョン言語モデル(VLM)が組み込まれ、各ロボットアームに最適なモーションを時間の経過とともに適応的に割り当てる動的タスク割り当て戦略をさらに設計します。
実験は、提案された方法の有効性を検証し、高効率と適応性を維持しながら、多様な操作タスクに一般化する能力を実証します。
コードおよびデモビデオは、プロジェクトWebサイトhttps://sites.google.com/view/vlm-sfd/で公開されています。
要約(オリジナル)
Dual-arm cooperative manipulation holds great promise for tackling complex real-world tasks that demand seamless coordination and adaptive dynamics. Despite substantial progress in learning-based motion planning, most approaches struggle to generalize across diverse manipulation tasks and adapt to dynamic, unstructured environments, particularly in scenarios involving interactions between two objects such as assembly, tool use, and bimanual grasping. To address these challenges, we introduce a novel VLM-Assisted Siamese Flow Diffusion (VLM-SFD) framework for efficient imitation learning in dual-arm cooperative manipulation. The proposed VLM-SFD framework exhibits outstanding adaptability, significantly enhancing the ability to rapidly adapt and generalize to diverse real-world tasks from only a minimal number of human demonstrations. Specifically, we propose a Siamese Flow Diffusion Network (SFDNet) employs a dual-encoder-decoder Siamese architecture to embed two target objects into a shared latent space, while a diffusion-based conditioning process-conditioned by task instructions-generates two-stream object-centric motion flows that guide dual-arm coordination. We further design a dynamic task assignment strategy that seamlessly maps the predicted 2D motion flows into 3D space and incorporates a pre-trained vision-language model (VLM) to adaptively assign the optimal motion to each robotic arm over time. Experiments validate the effectiveness of the proposed method, demonstrating its ability to generalize to diverse manipulation tasks while maintaining high efficiency and adaptability. The code and demo videos are publicly available on our project website https://sites.google.com/view/vlm-sfd/.
arxiv情報
著者 | Jiaming Chen,Yiyu Jiang,Aoshen Huang,Yang Li,Wei Pan |
発行日 | 2025-06-16 12:44:45+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google