OVGNet: A Unified Visual-Linguistic Framework for Open-Vocabulary Robotic Grasping

要約

新しいカテゴリのオブジェクトを認識して把握することは、現実世界のロボット アプリケーションにおいて依然として重要かつ困難な問題です。
その重要性にもかかわらず、この特定の分野では限られた研究しか行われていません。
これに対処するために、私たちはオープンな語彙学習をロボットによる把握の領域に統合し、新しい物体を適切に処理できる能力をロボットに与える新しいフレームワークをシームレスに提案します。
私たちの貢献は 3 つあります。
まず、オープン語彙把握タスクのパフォーマンスを評価するために特別に調整された大規模なベンチマーク データセットを紹介します。
第二に、ロボットが基本的なオブジェクトと新しいオブジェクトの両方をうまく把握するためのガイドとして機能する、統一された視覚言語フレームワークを提案します。
第三に、ロボットによる把握プロセスにおける視覚言語認識を強化するように設計された 2 つの位置合わせモジュールを紹介します。
広範な実験により、私たちのアプローチの有効性と有用性が検証されています。
特に、私たちのフレームワークは、新しいデータセットの基本カテゴリと新規カテゴリでそれぞれ 71.2\% と 64.4\% の平均精度を達成しています。

要約(オリジナル)

Recognizing and grasping novel-category objects remains a crucial yet challenging problem in real-world robotic applications. Despite its significance, limited research has been conducted in this specific domain. To address this, we seamlessly propose a novel framework that integrates open-vocabulary learning into the domain of robotic grasping, empowering robots with the capability to adeptly handle novel objects. Our contributions are threefold. Firstly, we present a large-scale benchmark dataset specifically tailored for evaluating the performance of open-vocabulary grasping tasks. Secondly, we propose a unified visual-linguistic framework that serves as a guide for robots in successfully grasping both base and novel objects. Thirdly, we introduce two alignment modules designed to enhance visual-linguistic perception in the robotic grasping process. Extensive experiments validate the efficacy and utility of our approach. Notably, our framework achieves an average accuracy of 71.2\% and 64.4\% on base and novel categories in our new dataset, respectively.

arxiv情報

著者 Li Meng,Zhao Qi,Lyu Shuchang,Wang Chunlei,Ma Yujing,Cheng Guangliang,Yang Chenguang
発行日 2024-07-18 05:30:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク