Quantifying and Learning Static vs. Dynamic Information in Deep Spatiotemporal Networks

要約

深層時空間モデルによって中間表現で取得される情報の理解には限界があります。
たとえば、アクション認識アルゴリズムが単一フレームの視覚的な外観に大きく影響されることを示す証拠はありますが、動的に対するバイアスと比較して、潜在表現におけるそのような静的なバイアスを評価するための定量的な方法論は存在しません。
私たちは、時空間モデルの静的および動的バイアスを定量化するアプローチを提案することでこの課題に取り組み、そのアプローチをアクション認識、自動ビデオ オブジェクト セグメンテーション (AVOS)、およびビデオ インスタンス セグメンテーション (VIS) の 3 つのタスクに適用します。
私たちの主な発見は次のとおりです: (i) 調査されたモデルのほとんどは静的な情報に偏っています。
(ii) 動的な情​​報に偏っていると想定されている一部のデータセットは、実際には静的な情報に偏っています。
(iii) アーキテクチャ内の個々のチャネルは、静的、動的、またはその 2 つの組み合わせに偏ることがあります。
(iv) ほとんどのモデルは、トレーニングの前半で最終的なバイアスに収束します。
次に、これらのバイアスが動的にバイアスされたデータセットのパフォーマンスにどのような影響を与えるかを調査します。
アクション認識については、静的な情報から動的な方向へモデルのバイアスを軽減する、意味論的にガイドされたドロップアウトである StaticDropout を提案します。
AVOS では、以前のアーキテクチャと比較して、融合層と相互接続層のより適切な組み合わせを設計しています。

要約(オリジナル)

There is limited understanding of the information captured by deep spatiotemporal models in their intermediate representations. For example, while evidence suggests that action recognition algorithms are heavily influenced by visual appearance in single frames, no quantitative methodology exists for evaluating such static bias in the latent representation compared to bias toward dynamics. We tackle this challenge by proposing an approach for quantifying the static and dynamic biases of any spatiotemporal model, and apply our approach to three tasks, action recognition, automatic video object segmentation (AVOS) and video instance segmentation (VIS). Our key findings are: (i) Most examined models are biased toward static information. (ii) Some datasets that are assumed to be biased toward dynamics are actually biased toward static information. (iii) Individual channels in an architecture can be biased toward static, dynamic or a combination of the two. (iv) Most models converge to their culminating biases in the first half of training. We then explore how these biases affect performance on dynamically biased datasets. For action recognition, we propose StaticDropout, a semantically guided dropout that debiases a model from static information toward dynamics. For AVOS, we design a better combination of fusion and cross connection layers compared with previous architectures.

arxiv情報

著者 Matthew Kowal,Mennatullah Siam,Md Amirul Islam,Neil D. B. Bruce,Richard P. Wildes,Konstantinos G. Derpanis
発行日 2024-09-16 15:00:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク