要約
近年、視覚、言語、ロボット工学の分野で目覚ましい進歩が見られました。
私たちは現在、言語クエリに基づいて物体を認識できる視覚モデル、モバイルシステムを効果的に制御できるナビゲーションシステム、そして広範囲の物体を処理できる把握モデルを備えています。
これらの進歩にもかかわらず、ロボット工学の汎用アプリケーションは、認識、ナビゲーション、把握という基本的な機能に依存しているにもかかわらず、依然として遅れをとっています。
この論文では、システムファーストのアプローチを採用して、OK-Robot と呼ばれる新しいオープンナレッジベースのロボット工学フレームワークを開発します。
OK-Robot は、オブジェクト検出のためのビジョン言語モデル (VLM)、移動のためのナビゲーション プリミティブ、オブジェクト操作のための把握プリミティブを組み合わせることで、トレーニングを必要とせずにピック アンド ドロップ操作のための統合ソリューションを提供します。
そのパフォーマンスを評価するために、10 の実際の家庭環境で OK-Robot を実行しました。
結果は、OK-Robot がオープンエンドのピック アンド ドロップ タスクで 58.5% の成功率を達成していることを示しており、これは従来のほぼ 1.8 倍のパフォーマンスを備えた Open Vocabulary Mobile Manipulation (OVMM) の新しい最先端技術を示しています。
仕事。
清潔で整然とした環境では、OK-Robot のパフォーマンスは 82% に向上します。
ただし、OK-Robot から得られる最も重要な洞察は、VLM などのオープン ナレッジ システムとロボット モジュールを組み合わせる際の微妙な詳細の重要な役割です。
私たちの実験とコードのビデオは、私たちの Web サイトでご覧いただけます: https://ok-robot.github.io
要約(オリジナル)
Remarkable progress has been made in recent years in the fields of vision, language, and robotics. We now have vision models capable of recognizing objects based on language queries, navigation systems that can effectively control mobile systems, and grasping models that can handle a wide range of objects. Despite these advancements, general-purpose applications of robotics still lag behind, even though they rely on these fundamental capabilities of recognition, navigation, and grasping. In this paper, we adopt a systems-first approach to develop a new Open Knowledge-based robotics framework called OK-Robot. By combining Vision-Language Models (VLMs) for object detection, navigation primitives for movement, and grasping primitives for object manipulation, OK-Robot offers a integrated solution for pick-and-drop operations without requiring any training. To evaluate its performance, we run OK-Robot in 10 real-world home environments. The results demonstrate that OK-Robot achieves a 58.5% success rate in open-ended pick-and-drop tasks, representing a new state-of-the-art in Open Vocabulary Mobile Manipulation (OVMM) with nearly 1.8x the performance of prior work. On cleaner, uncluttered environments, OK-Robot’s performance increases to 82%. However, the most important insight gained from OK-Robot is the critical role of nuanced details when combining Open Knowledge systems like VLMs with robotic modules. Videos of our experiments and code are available on our website: https://ok-robot.github.io
arxiv情報
著者 | Peiqi Liu,Yaswanth Orru,Jay Vakil,Chris Paxton,Nur Muhammad Mahi Shafiullah,Lerrel Pinto |
発行日 | 2024-02-29 17:20:08+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google