Quantifying and Learning Static vs. Dynamic Information in Deep Spatiotemporal Networks

要約

深層時空間モデルが中間表現に取り込む情報についての理解は限られている。例えば、行動認識アルゴリズムが単一フレームの視覚的外観に大きく影響されることを示唆する証拠がある一方で、潜在的表現におけるこのような静的バイアスと動的バイアスとを比較評価する定量的手法は存在しない。我々はこの課題に取り組むため、任意の時空間モデルの静的および動的な偏りを定量化するアプローチを提案し、そのアプローチを行動認識、自動ビデオオブジェクト分割(AVOS)、ビデオインスタンス分割(VIS)という3つのタスクに適用した。その結果、以下のことが分かった。(i)検討したモデルの多くは、静的情報に偏っている。(ii)ダイナミクスに偏っていると思われるデータセットが、実は静的な情報に偏っていることがある。(アーキテクチャ内の個々のチャンネルは静的、動的、あるいはその組み合わせに偏る可能性がある。(iv)ほとんどのモデルは、学習の前半でその頂点に達するバイアスに収束する。次に、これらの偏りが動的に偏ったデータセットにおける性能にどのような影響を与えるかを調べる。行動認識に関しては、静的な情報から動的な情報へとモデルを脱却させる、意味的に誘導されたドロップアウトであるStaticDropoutを提案する。AVOSでは、融合層と交差接続層の組み合わせを、従来のアーキテクチャと比較してより良く設計する。

要約(オリジナル)

There is limited understanding of the information captured by deep spatiotemporal models in their intermediate representations. For example, while evidence suggests that action recognition algorithms are heavily influenced by visual appearance in single frames, no quantitative methodology exists for evaluating such static bias in the latent representation compared to bias toward dynamics. We tackle this challenge by proposing an approach for quantifying the static and dynamic biases of any spatiotemporal model, and apply our approach to three tasks, action recognition, automatic video object segmentation (AVOS) and video instance segmentation (VIS). Our key findings are: (i) Most examined models are biased toward static information. (ii) Some datasets that are assumed to be biased toward dynamics are actually biased toward static information. (iii) Individual channels in an architecture can be biased toward static, dynamic or a combination of the two. (iv) Most models converge to their culminating biases in the first half of training. We then explore how these biases affect performance on dynamically biased datasets. For action recognition, we propose StaticDropout, a semantically guided dropout that debiases a model from static information toward dynamics. For AVOS, we design a better combination of fusion and cross connection layers compared with previous architectures.

arxiv情報

著者 Matthew Kowal,Mennatullah Siam,Md Amirul Islam,Neil D. B. Bruce,Richard P. Wildes,Konstantinos G. Derpanis
発行日 2022-11-03 13:17:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク