要約
構造化されていない環境で未知のオブジェクトを把握することは、ロボット工学における根本的な課題のままであり、セマンティック理解と空間的推論の両方を必要とします。
既存の方法は、多くの場合、密なトレーニングデータセットまたは明示的な幾何学モデリングに依存しており、そのスケーラビリティを実際のタスクに制限します。
大規模なマルチモーダルモデル(LMMS)の最近の進歩は、ビジョンと言語の理解を統合するための新しい可能性を提供しますが、自律的なロボットグラッシングへの適用はほとんど未踏のままです。
LMMをセマンティックオラクルとして活用するゼロショットフレームワークであるOracle-Graspを提示して、追加のトレーニングや人間の入力を必要とせずに把握選択を導きます。
このシステムは、最初に高レベルのオブジェクトコンテキストを抽出し、タスク関連の把握領域を選択するためにデュアルプロムプトツール呼び出しを使用して、構造化された反復決定プロセスとして把握予測を定式化します。
イメージ空間を離散化し、候補エリアを推論することにより、Oracle-GraspはLMMで一般的な空間的不正確さを軽減し、人間のようなタスク駆動型の把握提案を生成します。
早期停止と深さベースの改良ステップにより、効率と身体的把握の信頼性がさらに向上します。
実験は、予測されたグラスが人間が発表した地上真理と比較して低い位置および方向誤差を達成し、現実世界のピックアップタスクで高い成功率につながることを示しています。
これらの結果は、言語主導の推論と軽量のビジョン技術を組み合わせて、タスク固有のデータセットや再訓練なしで堅牢で自律的な把握を可能にする可能性を強調しています。
要約(オリジナル)
Grasping unknown objects in unstructured environments remains a fundamental challenge in robotics, requiring both semantic understanding and spatial reasoning. Existing methods often rely on dense training datasets or explicit geometric modeling, limiting their scalability to real-world tasks. Recent advances in Large Multimodal Models (LMMs) offer new possibilities for integrating vision and language understanding, but their application to autonomous robotic grasping remains largely unexplored. We present ORACLE-Grasp, a zero-shot framework that leverages LMMs as semantic oracles to guide grasp selection without requiring additional training or human input. The system formulates grasp prediction as a structured, iterative decision process, using dual-prompt tool calling to first extract high-level object context and then select task-relevant grasp regions. By discretizing the image space and reasoning over candidate areas, ORACLE-Grasp mitigates the spatial imprecision common in LMMs and produces human-like, task-driven grasp suggestions. Early stopping and depth-based refinement steps further enhance efficiency and physical grasp reliability. Experiments demonstrate that the predicted grasps achieve low positional and orientation errors relative to human-annotated ground truth and lead to high success rates in real-world pick up tasks. These results highlight the potential of combining language-driven reasoning with lightweight vision techniques to enable robust, autonomous grasping without task-specific datasets or retraining.
arxiv情報
著者 | Avihai Giuili,Rotem Atari,Avishai Sintov |
発行日 | 2025-05-13 10:19:54+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google