OVTrack: Open-Vocabulary Multiple Object Tracking

要約

タイトル:OVTrack:オープンボキャブラリーの複数物体追跡

要約:

– シーン内の動的なオブジェクトを認識、ローカライズ、トラッキングする能力は、自動運転やロボットシステムなどの多くの現実世界のアプリケーションにとって基本的です。
– しかしながら、従来の多数物体追跡(MOT)ベンチマークは、現実世界で遭遇する可能性のある多数のオブジェクトをほとんど表すことができないわずかなオブジェクトカテゴリに依存しています。
– このため、現代のMOT手法は小さな事前定義されたオブジェクトカテゴリのセットに限定されています。
– 本論文では、事前に定義されたトレーニングカテゴリを超えたトラッキングを評価することを目的とした、オープンボキャブラリーMOTという新しいタスクに取り組んでいます。
– さらに、任意のオブジェクトクラスを追跡することができるオープンボキャブラリートラッカーであるOVTrackを開発します。
– その設計は、ビジョン言語モデルを用いた分類と関連付けの両方のための知識蒸留、そしてデノイジングディフュージョン確率モデルからの堅牢な外観特徴学習のためのデータホロゴリフィケーション戦略に基づいています。
– その結果、静止画像のみを対象とし、極めてデータ効率的なオープンボキャブラリートラッカーが、大規模で多様なTAOベンチマークにおいて新たな最先端を設定しています。プロジェクトページ:https://www.vis.xyz/pub/ovtrack/

要約(オリジナル)

The ability to recognize, localize and track dynamic objects in a scene is fundamental to many real-world applications, such as self-driving and robotic systems. Yet, traditional multiple object tracking (MOT) benchmarks rely only on a few object categories that hardly represent the multitude of possible objects that are encountered in the real world. This leaves contemporary MOT methods limited to a small set of pre-defined object categories. In this paper, we address this limitation by tackling a novel task, open-vocabulary MOT, that aims to evaluate tracking beyond pre-defined training categories. We further develop OVTrack, an open-vocabulary tracker that is capable of tracking arbitrary object classes. Its design is based on two key ingredients: First, leveraging vision-language models for both classification and association via knowledge distillation; second, a data hallucination strategy for robust appearance feature learning from denoising diffusion probabilistic models. The result is an extremely data-efficient open-vocabulary tracker that sets a new state-of-the-art on the large-scale, large-vocabulary TAO benchmark, while being trained solely on static images. Project page: https://www.vis.xyz/pub/ovtrack/

arxiv情報

著者 Siyuan Li,Tobias Fischer,Lei Ke,Henghui Ding,Martin Danelljan,Fisher Yu
発行日 2023-04-17 16:20:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク