ThinkGrasp: A Vision-Language System for Strategic Part Grasping in Clutter

要約

雑然とした環境でのロボットによる把握は、遮蔽物や複雑な物体の配置のため、依然として大きな課題です。
私たちは、GPT-4o の高度な文脈推論を利用して、大量のクラッター環境を把握する戦略を実現する、プラグアンドプレイの視覚言語把握システムである ThinkGrasp を開発しました。
ThinkGrasp は、目標指向の言語を使用して障害物の除去をガイドすることにより、ターゲット オブジェクトが大きく遮られている場合やほとんど見えない場合でも、ターゲット オブジェクトの把握ポーズを効果的に識別して生成できます。
このアプローチでは、ターゲット オブジェクトを徐々に明らかにし、最終的には少ない手順で高い成功率でそれを把握します。
シミュレートされた実験と実際の実験の両方で、ThinkGrasp は高い成功率を達成し、非常に乱雑な環境や目に見えない多様な物体を扱う環境において最先端の手法を大幅に上回り、強力な一般化機能を実証しました。

要約(オリジナル)

Robotic grasping in cluttered environments remains a significant challenge due to occlusions and complex object arrangements. We have developed ThinkGrasp, a plug-and-play vision-language grasping system that makes use of GPT-4o’s advanced contextual reasoning for heavy clutter environment grasping strategies. ThinkGrasp can effectively identify and generate grasp poses for target objects, even when they are heavily obstructed or nearly invisible, by using goal-oriented language to guide the removal of obstructing objects. This approach progressively uncovers the target object and ultimately grasps it with a few steps and a high success rate. In both simulated and real experiments, ThinkGrasp achieved a high success rate and significantly outperformed state-of-the-art methods in heavily cluttered environments or with diverse unseen objects, demonstrating strong generalization capabilities.

arxiv情報

著者 Yaoyao Qian,Xupeng Zhu,Ondrej Biza,Shuo Jiang,Linfeng Zhao,Haojie Huang,Yu Qi,Robert Platt
発行日 2024-07-16 01:06:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク