Track Anything Rapter(TAR)

要約

オブジェクト追跡は、交通監視、ロボティクス、自動車両追跡など、さまざまな領域にわたる広範な実用的なアプリケーションを持つコンピューター ビジョンの基本的なタスクです。
このプロジェクトでは、Track Anything Rapter (TAR) として知られる高度な航空機システムを開発することを目指しています。このシステムは、テキスト、画像、クリックなど、ユーザーが提供するマルチモーダル クエリに基づいて対象オブジェクトを検出、セグメント化、追跡するように設計されています。
TAR は、DINO、CLIP、SAM などの最先端の事前トレーニング済みモデルを利用して、クエリされたオブジェクトの相対姿勢を推定します。
追跡問題はビジュアル サーボイング タスクとしてアプローチされ、高度な動作計画と制御アルゴリズムを通じて UAV が一貫してオブジェクトに焦点を合わせることが可能になります。
これらの基本モデルとカスタムの高レベル制御アルゴリズムを統合することで、カスタム構築された PX4 オートパイロット対応 Voxl2 M500 ドローンに導入された非常に安定した正確な追跡システムがどのように実現されるかを紹介します。
追跡アルゴリズムのパフォーマンスを検証するために、Vicon ベースのグラウンド トゥルースと比較します。
さらに、オクルージョンを伴うシナリオでの追跡を支援するための基礎モデルの信頼性を評価します。
最後に、クリック、境界ボックス、画像テンプレートなどの複数のモダリティとシームレスに連携するモデルの機能をテストして検証します。

要約(オリジナル)

Object tracking is a fundamental task in computer vision with broad practical applications across various domains, including traffic monitoring, robotics, and autonomous vehicle tracking. In this project, we aim to develop a sophisticated aerial vehicle system known as Track Anything Rapter (TAR), designed to detect, segment, and track objects of interest based on user-provided multimodal queries, such as text, images, and clicks. TAR utilizes cutting-edge pre-trained models like DINO, CLIP, and SAM to estimate the relative pose of the queried object. The tracking problem is approached as a Visual Servoing task, enabling the UAV to consistently focus on the object through advanced motion planning and control algorithms. We showcase how the integration of these foundational models with a custom high-level control algorithm results in a highly stable and precise tracking system deployed on a custom-built PX4 Autopilot-enabled Voxl2 M500 drone. To validate the tracking algorithm’s performance, we compare it against Vicon-based ground truth. Additionally, we evaluate the reliability of the foundational models in aiding tracking in scenarios involving occlusions. Finally, we test and validate the model’s ability to work seamlessly with multiple modalities, such as click, bounding box, and image templates.

arxiv情報

著者 Tharun V. Puthanveettil,Fnu Obaid ur Rahman
発行日 2024-05-29 16:09:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO パーマリンク