要約
Early Movement Primitive(MP)テクニックから最新の視覚言語モデル(VLM)まで、自律操作はロボット工学の極めて重要なトピックであり続けています。
VLMベースの方法は、2つの極端なものとして、ゼロショットと適応操作を強調していますが、きめ細かい計画に苦労しています。
対照的に、MPベースのアプローチは正確な軌跡の一般化に優れていますが、意思決定能力がありません。
2つのフレームワークの強みを活用するために、VL-MPを提案します。これは、低耐性の意思決定情報転送ブリッジを介してVLMをカーネル化された動きのプリミティブ(KMP)と統合し、あいまいな状況下で細粒のロボット操作を可能にします。
VL-MPの1つの鍵は、セマンティックキーポイントの制約を介したタスク決定パラメーターの正確な表現であり、より正確なタスクパラメーター生成につながります。
さらに、VL-MPをサポートするためにローカル軌道機能が強化されたKMPを導入し、それにより複雑な軌跡の形状保存を達成します。
複雑な現実世界環境で実施された広範な実験は、適応型および細かい操作に対するVL-MPの有効性を検証します。
要約(オリジナル)
From early Movement Primitive (MP) techniques to modern Vision-Language Models (VLMs), autonomous manipulation has remained a pivotal topic in robotics. As two extremes, VLM-based methods emphasize zero-shot and adaptive manipulation but struggle with fine-grained planning. In contrast, MP-based approaches excel in precise trajectory generalization but lack decision-making ability. To leverage the strengths of the two frameworks, we propose VL-MP, which integrates VLM with Kernelized Movement Primitives (KMP) via a low-distortion decision information transfer bridge, enabling fine-grained robotic manipulation under ambiguous situations. One key of VL-MP is the accurate representation of task decision parameters through semantic keypoints constraints, leading to more precise task parameter generation. Additionally, we introduce a local trajectory feature-enhanced KMP to support VL-MP, thereby achieving shape preservation for complex trajectories. Extensive experiments conducted in complex real-world environments validate the effectiveness of VL-MP for adaptive and fine-grained manipulation.
arxiv情報
著者 | Junjie Zhu,Huayu Liu,Jin Wang,Bangrong Wen,Kaixiang Huang,Xiaofei Li,Haiyun Zhan,Guodong Lu |
発行日 | 2025-03-04 16:14:06+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google