Contrastive Learning for Multi-Object Tracking with Transformers

要約

DEtection TRansformer (DETR) は、オブジェクト検出を変換タスクとしてモデル化し、画像の特徴をオブジェクト レベルの表現に変換することで、オブジェクト検出の新たな可能性を切り開きました。
従来の作業では通常、マルチオブジェクト追跡 (MOT) を実行するために高価なモジュールを DETR に追加し、その結果、アーキテクチャがより複雑になりました。
代わりに、インスタンス レベルのコントラスト損失、修正されたサンプリング戦略、および軽量の割り当て方法を採用することで、DETR を MOT モデルにどのように変換できるかを示します。
私たちのトレーニング スキームは、検出機能を維持しながら、オーバーヘッドをほとんど発生させずにオブジェクトの外観を学習します。
そのパフォーマンスは、困難な BDD100K データセット上で以前の最先端技術を +2.6 mMOTA 上回り、MOT17 データセット上の既存のトランスベースの手法と同等です。

要約(オリジナル)

The DEtection TRansformer (DETR) opened new possibilities for object detection by modeling it as a translation task: converting image features into object-level representations. Previous works typically add expensive modules to DETR to perform Multi-Object Tracking (MOT), resulting in more complicated architectures. We instead show how DETR can be turned into a MOT model by employing an instance-level contrastive loss, a revised sampling strategy and a lightweight assignment method. Our training scheme learns object appearances while preserving detection capabilities and with little overhead. Its performance surpasses the previous state-of-the-art by +2.6 mMOTA on the challenging BDD100K dataset and is comparable to existing transformer-based methods on the MOT17 dataset.

arxiv情報

著者 Pierre-François De Plaen,Nicola Marinello,Marc Proesmans,Tinne Tuytelaars,Luc Van Gool
発行日 2023-11-14 10:07:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク