Leveraging Transformers for Weakly Supervised Object Localization in Unconstrained Videos

要約

弱監視ビデオ オブジェクト ローカリゼーション (WSVOL) では、タグとも呼ばれるビデオ レベルのラベルのみを使用してビデオ内のオブジェクトをローカライズします。
Temporal CAM (TCAM) などの最先端の WSVOL メソッドは、クラス アクティベーション マッピング (CAM) に依存しており、通常は事前トレーニングされた CNN 分類器が必要です。
ただし、その位置特定の精度は、クラスの異なるインスタンス間の相互情報を最小限に抑え、下流のタスク (検出や追跡など) のトレーニング中に時間情報を活用する傾向によって影響を受けます。
境界ボックスの注釈がない場合、モデルは時間の経過とともにオブジェクトの位置を特定するのに苦労するため、時間的手がかりからオブジェクトに関する正確な情報を活用することは困難です。
これらの問題に対処するために、トランスフォーマー ベースのビデオ用 CAM (TrCAM-V) と呼ばれる新しい方法が WSVOL に対して提案されています。
これは、分類とローカリゼーションのための 2 つのヘッドを備えた DeiT バックボーンで構成されています。
分類ヘッドは標準の分類損失 (CL) を使用してトレーニングされますが、位置特定ヘッドは、事前トレーニングされた CLIP モデルを使用して抽出された擬似ラベルを使用してトレーニングされます。
これらの擬似ラベルから、高い活性化値と低い活性化値はそれぞれ前景領域と背景領域であると考えられます。
私たちの TrCAM-V メソッドでは、これらの領域からオンザフライで擬似ピクセルをサンプリングすることで、位置特定ネットワークをトレーニングできます。
さらに、条件付きランダム フィールド (CRF) 損失を使用して、オブジェクトの境界を前景マップと位置合わせします。
推論中、モデルはリアルタイム ローカリゼーション アプリケーション用に個々のフレームを処理できます。
困難な YouTube-Objects の制約のないビデオ データセットに関する広範な実験により、TrCAM-V メソッドが分類と位置特定の精度の点で新しい最先端のパフォーマンスを達成することが示されました。

要約(オリジナル)

Weakly-Supervised Video Object Localization (WSVOL) involves localizing an object in videos using only video-level labels, also referred to as tags. State-of-the-art WSVOL methods like Temporal CAM (TCAM) rely on class activation mapping (CAM) and typically require a pre-trained CNN classifier. However, their localization accuracy is affected by their tendency to minimize the mutual information between different instances of a class and exploit temporal information during training for downstream tasks, e.g., detection and tracking. In the absence of bounding box annotation, it is challenging to exploit precise information about objects from temporal cues because the model struggles to locate objects over time. To address these issues, a novel method called transformer based CAM for videos (TrCAM-V), is proposed for WSVOL. It consists of a DeiT backbone with two heads for classification and localization. The classification head is trained using standard classification loss (CL), while the localization head is trained using pseudo-labels that are extracted using a pre-trained CLIP model. From these pseudo-labels, the high and low activation values are considered to be foreground and background regions, respectively. Our TrCAM-V method allows training a localization network by sampling pseudo-pixels on the fly from these regions. Additionally, a conditional random field (CRF) loss is employed to align the object boundaries with the foreground map. During inference, the model can process individual frames for real-time localization applications. Extensive experiments on challenging YouTube-Objects unconstrained video datasets show that our TrCAM-V method achieves new state-of-the-art performance in terms of classification and localization accuracy.

arxiv情報

著者 Shakeeb Murtaza,Marco Pedersoli,Aydin Sarraf,Eric Granger
発行日 2024-07-08 15:08:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク