要約
ビデオ内の時空間情報を活用することは、弱監視ビデオ オブジェクト ローカリゼーション (WSVOL) タスクにとって重要です。
ただし、最先端の方法は視覚と動きの手がかりのみに依存し、識別情報を破棄するため、不正確な位置特定が行われやすくなります。
最近、一時クラス アクティベーション マッピング (CAM) メソッドを使用して、WSVOL タスクの識別モデルが検討されています。
その結果は有望ですが、オブジェクトのフレーム間の移動は制限されていると想定されており、比較的長期的な依存関係ではパフォーマンスの低下につながります。
この論文では、オブジェクトの位置を制約せずにトレーニング中にアクティベーション マップの時空間情報を利用する、WSVOL 用の新しい CAM 手法を提案します。
そのトレーニングは Co-Localization に依存しているため、CoLo-CAM という名前が付けられています。
一連のフレームが与えられると、オブジェクトが連続するフレームで同様の色を持つと仮定することにより、対応するマップ全体で抽出されたカラー キューに基づいて位置特定が共同で学習されます。
CAM のアクティベーションは、類似した色のピクセルに対して同様に応答するように制約され、共局在化を実現します。
これにより、共同学習によってすべての画像位置およびすべてのフレームにわたってピクセル間の直接通信が作成され、ローカライゼーションの転送、集約、および補正が可能になるため、ローカライゼーションのパフォーマンスが向上します。
共局在化は、一連のフレーム/CAM にわたる条件付きランダム フィールド (CRF) 損失の色項を最小限に抑えることでトレーニングに統合されます。
制約のないビデオの 2 つの困難な YouTube-Objects データセットに対する広範な実験により、CoLo-CAM 手法の利点と長期依存関係に対する堅牢性が示され、WSVOL タスクの新しい最先端のパフォーマンスにつながります。
要約(オリジナル)
Leveraging spatiotemporal information in videos is critical for weakly supervised video object localization (WSVOL) tasks. However, state-of-the-art methods only rely on visual and motion cues, while discarding discriminative information, making them susceptible to inaccurate localizations. Recently, discriminative models have been explored for WSVOL tasks using a temporal class activation mapping (CAM) method. Although their results are promising, objects are assumed to have limited movement from frame to frame, leading to degradation in performance for relatively long-term dependencies. This paper proposes a novel CAM method for WSVOL that exploits spatiotemporal information in activation maps during training without constraining an object’s position. Its training relies on Co-Localization, hence, the name CoLo-CAM. Given a sequence of frames, localization is jointly learned based on color cues extracted across the corresponding maps, by assuming that an object has similar color in consecutive frames. CAM activations are constrained to respond similarly over pixels with similar colors, achieving co-localization. This improves localization performance because the joint learning creates direct communication among pixels across all image locations and over all frames, allowing for transfer, aggregation, and correction of localizations. Co-localization is integrated into training by minimizing the color term of a conditional random field (CRF) loss over a sequence of frames/CAMs. Extensive experiments on two challenging YouTube-Objects datasets of unconstrained videos show the merits of our CoLo-CAM method, and its robustness to long-term dependencies, leading to new state-of-the-art performance for WSVOL task.
arxiv情報
著者 | Soufiane Belharbi,Shakeeb Murtaza,Marco Pedersoli,Ismail Ben Ayed,Luke McCaffrey,Eric Granger |
発行日 | 2024-02-28 13:53:28+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google