要約
ロボット操作の大幅な進歩にもかかわらず、一貫性のある安定した把握を達成することは依然として根本的な課題であり、しばしば複雑なタスクの実行の成功を制限します。
私たちの分析により、最先端のポリシーモデルでさえ、不安定な把握行動を頻繁に示すことが明らかになり、実際のロボットアプリケーションでボトルネックを作成する失敗ケースにつながります。
これらの課題に対処するために、Vision-Language Model-Guidedフィードバックを通じて把握パフォーマンスを向上させるように設計されたプラグアンドプレイモジュールであるGraspCorrectを紹介します。
GraspCorrectは、2つの重要なコンポーネントを備えた反復的な視覚的な質問フレームワークを採用しています。タスク固有の制約とオブジェクト認識サンプリングを組み込み、物理的に実行可能な把握候補の選択を保証するオブジェクト認識サンプリングを採用しています。
中間の視覚目標を繰り返し生成し、それらを共同レベルのアクションに変換することにより、GRASPCORECTは安定性を大幅に改善し、RLBenchおよびCalvinデータセットの既存のポリシーモデル全体でタスクの成功率を一貫して強化します。
要約(オリジナル)
Despite significant advancements in robotic manipulation, achieving consistent and stable grasping remains a fundamental challenge, often limiting the successful execution of complex tasks. Our analysis reveals that even state-of-the-art policy models frequently exhibit unstable grasping behaviors, leading to failure cases that create bottlenecks in real-world robotic applications. To address these challenges, we introduce GraspCorrect, a plug-and-play module designed to enhance grasp performance through vision-language model-guided feedback. GraspCorrect employs an iterative visual question-answering framework with two key components: grasp-guided prompting, which incorporates task-specific constraints, and object-aware sampling, which ensures the selection of physically feasible grasp candidates. By iteratively generating intermediate visual goals and translating them into joint-level actions, GraspCorrect significantly improves grasp stability and consistently enhances task success rates across existing policy models in the RLBench and CALVIN datasets.
arxiv情報
著者 | Sungjae Lee,Yeonjoo Hong,Kwang In Kim |
発行日 | 2025-03-19 09:25:32+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google