QwenGrasp: A Usage of Large Vision Language Model for Target-oriented Grasping

要約

ロボット システムが人間の言語を理解し、把握動作を実行できるかどうかは、ロボット工学の分野における極めて重要な課題です。
ターゲット指向の把握では、従来の研究により、人間のテキストコマンドとターゲットオブジェクトの画像のマッチングが実現されています。
しかし、これらの作業は、複雑または柔軟な指示を理解するのが困難です。
また、これらの作業では、指示の実行可能性を自律的に判断する機能が欠如しており、対象物がないにもかかわらず、やみくもに把握作業を実行することになる。
この論文では、大規模ビジョン言語モデルと 6-DoF 把握ネットワークを組み合わせた QwenGrasp と呼ばれる組み合わせモデルを紹介します。
事前にトレーニングされた大規模なビジョン言語モデルを活用することで、私たちのアプローチは、オープンワールドで自然な人間の言語環境で動作し、複雑かつ柔軟な指示を受け入れることができます。
さらに、特殊な把握ネットワークにより、生成された把握ポーズの有効性が保証されます。
現実世界の環境で行われた一連の実験は、私たちの方法が人間の意図を理解する優れた能力を示すことを示しています。
さらに、誤った指示を受け入れた場合、私たちのアプローチはタスクの実行を一時停止し、人間にフィードバックを提供する機能を備えており、安全性が向上します。

要約(オリジナル)

The ability for robotic systems to understand human language and execute grasping actions is a pivotal challenge in the field of robotics. In target-oriented grasping, prior researches achieve matching human textual commands with images of target objects. However, these works are hard to understand complex or flexible instructions. Moreover, these works lack the capability to autonomously assess the feasibility of instructions, leading to blindly execute grasping tasks even there is no target object. In this paper, we introduce a combination model called QwenGrasp, which combines a large vision language model with a 6-DoF grasp network. By leveraging a pre-trained large vision language model, our approach is capable of working in open-world with natural human language environments, accepting complex and flexible instructions. Furthermore, the specialized grasp network ensures the effectiveness of the generated grasp pose. A series of experiments conducted in real world environment show that our method exhibits a superior ability to comprehend human intent. Additionally, when accepting erroneous instructions, our approach has the capability to suspend task execution and provide feedback to humans, improving safety.

arxiv情報

著者 Xinyu Chen,Jian Yang,Zonghan He,Haobin Yang,Qi Zhao,Yuhui Shi
発行日 2023-09-28 13:23:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク