要約
時空間深層モデルは、行動認識やビデオオブジェクトのセグメンテーションなど、様々なコンピュータビジョンのタスクで使用されています。現在、これらのモデルが中間表現においてどのような情報を捉えているかについては、限られた理解しか得られていない。例えば、行動認識アルゴリズムが静止画の視覚的外観に大きく影響されることが観察されている一方で、潜在表現におけるこのような静的な偏りを、動的情報(例えば、動き)への偏りと比較して評価する定量的手法は存在しない。我々は、この課題に対し、任意の時空間モデルの静的・動的な偏りを定量的に評価する新しいアプローチを提案する。本アプローチの有効性を示すために、広く研究されている2つのタスク、行動認識とビデオオブジェクトのセグメンテーションを分析する。(1)ほとんどの時空間モデルは静的情報に偏っているが、クロスコネクトを持つ特定の2ストリームアーキテクチャは静的情報と動的情報のバランスが良い。(一般にダイナミクスに偏っていると思われているデータセットが、実はスタティックな情報に偏っている場合がある。(iii)アーキテクチャ内の個々のユニット(チャネル)は、静的、動的、またはその2つの組み合わせに偏ることがある。
要約(オリジナル)
Deep spatiotemporal models are used in a variety of computer vision tasks, such as action recognition and video object segmentation. Currently, there is a limited understanding of what information is captured by these models in their intermediate representations. For example, while it has been observed that action recognition algorithms are heavily influenced by visual appearance in single static frames, there is no quantitative methodology for evaluating such static bias in the latent representation compared to bias toward dynamic information (e.g. motion). We tackle this challenge by proposing a novel approach for quantifying the static and dynamic biases of any spatiotemporal model. To show the efficacy of our approach, we analyse two widely studied tasks, action recognition and video object segmentation. Our key findings are threefold: (i) Most examined spatiotemporal models are biased toward static information; although, certain two-stream architectures with cross-connections show a better balance between the static and dynamic information captured. (ii) Some datasets that are commonly assumed to be biased toward dynamics are actually biased toward static information. (iii) Individual units (channels) in an architecture can be biased toward static, dynamic or a combination of the two.
arxiv情報
著者 | Matthew Kowal,Mennatullah Siam,Md Amirul Islam,Neil D. B. Bruce,Richard P. Wildes,Konstantinos G. Derpanis |
発行日 | 2022-06-06 18:39:37+00:00 |
arxivサイト | arxiv_id(pdf) |