要約
関心のあるオブジェクトを追跡して追跡することは、産業オートメーションから物流や倉庫、医療やセキュリティに至るまで、いくつかのロボットのユースケースにとって重要です。
この論文では、リアルタイムであらゆる物体を検出、追跡、追跡するロボット システムを紹介します。
「follow anything」(FAn) と呼ばれる私たちのアプローチは、オープン語彙かつマルチモーダルなモデルです。訓練時に見られる概念に限定されず、テキスト、画像、またはテキストを使用して推論時に新しいクラスに適用できます。
「クエリ」をクリックします。
FAn は、大規模な事前トレーニング済みモデル (基礎モデル) からの豊富な視覚記述子を活用して、マルチモーダル クエリ (テキスト、画像、クリック) を入力画像シーケンスと照合することにより、オブジェクトを検出してセグメント化できます。
これらの検出およびセグメント化されたオブジェクトは、オクルージョンとオブジェクトの再出現を考慮しながら、画像フレーム全体で追跡されます。
私たちは、実世界のロボット システム (超小型航空機) 上で FAn を実証し、リアルタイム制御ループで対象物体をシームレスに追跡するその能力を報告します。
FAn は軽量 (6 ~ 8 GB) グラフィックス カードを搭載したラップトップに導入でき、1 秒あたり 6 ~ 20 フレームのスループットを実現します。
迅速な導入、展開、拡張性を可能にするために、すべてのコードをプロジェクト Web ページ ( https://github.com/alaamaalouf/FollowAnything ) でオープンソース化しています。
また、この https://www.youtube.com/watch?v=6Mgt3EPytrw で 5 分間の説明ビデオを視聴することをお勧めします。
要約(オリジナル)
Tracking and following objects of interest is critical to several robotics use cases, ranging from industrial automation to logistics and warehousing, to healthcare and security. In this paper, we present a robotic system to detect, track, and follow any object in real-time. Our approach, dubbed “follow anything” (FAn), is an open-vocabulary and multimodal model — it is not restricted to concepts seen at training time and can be applied to novel classes at inference time using text, images, or click queries. Leveraging rich visual descriptors from large-scale pre-trained models (foundation models), FAn can detect and segment objects by matching multimodal queries (text, images, clicks) against an input image sequence. These detected and segmented objects are tracked across image frames, all while accounting for occlusion and object re-emergence. We demonstrate FAn on a real-world robotic system (a micro aerial vehicle) and report its ability to seamlessly follow the objects of interest in a real-time control loop. FAn can be deployed on a laptop with a lightweight (6-8 GB) graphics card, achieving a throughput of 6-20 frames per second. To enable rapid adoption, deployment, and extensibility, we open-source all our code on our project webpage at https://github.com/alaamaalouf/FollowAnything . We also encourage the reader to watch our 5-minutes explainer video in this https://www.youtube.com/watch?v=6Mgt3EPytrw .
arxiv情報
著者 | Alaa Maalouf,Ninad Jadhav,Krishna Murthy Jatavallabhula,Makram Chahine,Daniel M. Vogt,Robert J. Wood,Antonio Torralba,Daniela Rus |
発行日 | 2024-02-10 03:53:18+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google