要約
最近、自然言語は、人間とロボットの相互作用の主要な媒体でした。
ただし、ロボット制御の空間的精度の固有の欠如は、あいまいさや冗長性などの課題をもたらします。
これらの制限に対処するために、オブジェクト中心の手描きの象徴的な表現を通してロボットタスクをガイドする新しいパラダイムであるロボットビジュアル命令(ROVI)を紹介します。
Roviは、空間的情報を効果的に、2Dスケッチを介して人間の解釈可能な視覚命令に効果的にエンコードし、矢、円、色、数字を利用して3Dロボット操作を指示します。
ロボットがROVIをよりよく理解し、ROVIに基づいて正確なアクションを生成できるようにするために、ROVIコンディショニングされたポリシー用に処方されたパイプラインである視覚命令具体化ワークフロー(ビュー)を提示します。
このアプローチは、Vision-Language Models(VLMS)を活用してRovi入力を解釈し、キーポイント抽出を介して2Dピクセル空間からの空間的および時間的制約を解釈し、それらを実行可能な3Dアクションシーケンスに変換します。
さらに、15Kインスタンスの専門データセットをキュレートして、エッジ展開のために小さなVLMSを微調整し、Rovi機能を効果的に学習できるようにします。
私たちのアプローチは、実際の環境とシミュレートされた環境の両方で11の新しいタスクで厳密に検証されており、重要な一般化能力を示しています。
特に、Viewは、障害、軌跡に従う要件を備えたマルチステップアクションを特徴とする目に見えないタスクを含む、現実世界のシナリオで87.5%の成功率を達成します。
このペーパーのコードとデータセットはまもなくリリースされます。
要約(オリジナル)
Recently, natural language has been the primary medium for human-robot interaction. However, its inherent lack of spatial precision for robotic control introduces challenges such as ambiguity and verbosity. To address these limitations, we introduce the Robotic Visual Instruction (RoVI), a novel paradigm to guide robotic tasks through an object-centric, hand-drawn symbolic representation. RoVI effectively encodes spatial-temporal information into human-interpretable visual instructions through 2D sketches, utilizing arrows, circles, colors, and numbers to direct 3D robotic manipulation. To enable robots to understand RoVI better and generate precise actions based on RoVI, we present Visual Instruction Embodied Workflow (VIEW), a pipeline formulated for RoVI-conditioned policies. This approach leverages Vision-Language Models (VLMs) to interpret RoVI inputs, decode spatial and temporal constraints from 2D pixel space via keypoint extraction, and then transform them into executable 3D action sequences. We additionally curate a specialized dataset of 15K instances to fine-tune small VLMs for edge deployment, enabling them to effectively learn RoVI capabilities. Our approach is rigorously validated across 11 novel tasks in both real and simulated environments, demonstrating significant generalization capability. Notably, VIEW achieves an 87.5% success rate in real-world scenarios involving unseen tasks that feature multi-step actions, with disturbances, and trajectory-following requirements. Code and Datasets in this paper will be released soon.
arxiv情報
著者 | Yanbang Li,Ziyang Gong,Haoyang Li,Haoyang Li,Xiaoqi Huang,Haolan Kang,Guangping Bai,Xianzheng Ma |
発行日 | 2025-05-01 17:55:05+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google