Is Appearance Free Action Recognition Possible?

要約

直感は、動きと動的な情報がビデオベースの行動認識の鍵であることを示唆しているかもしれません。
対照的に、最先端の深層学習ビデオ理解アーキテクチャは、単一フレームで利用可能な静的情報に偏っているという証拠があります。
現在、ビデオの動的情報の影響を分離するための方法論と対応するデータセットがありません。
それらがないため、現代のアーキテクチャが動的情報と静的情報をどれだけうまく活用しているかを理解することは困難です。
行動認識のための新しい外観フリーデータセット(AFD)で応答します。
AFDには、単一フレームでの行動認識に関連する静的情報がありません。
ダイナミクスのモデリングは、タスクを解決するために必要です。これは、アクションが時間的次元を考慮することによってのみ明らかになるためです。
AFDとそれに関連するRGBビデオで11の現代的な行動認識アーキテクチャを評価しました。
私たちの結果は、RGBと比較してAFDのすべてのアーキテクチャのパフォーマンスが著しく低下していることを示しています。
また、AFDとRGBでの認識精度が非常に類似しており、AFDで評価されたアーキテクチャよりもはるかに優れていることを示す、人間を対象とした無料の調査を実施しました。
私たちの結果は、AFDとRGBで最高のパフォーマンスを実現するための現代的な設計の中で、オプティカルフローの明示的な回復を復活させる新しいアーキテクチャを動機付けています。

要約(オリジナル)

Intuition might suggest that motion and dynamic information are key to video-based action recognition. In contrast, there is evidence that state-of-the-art deep-learning video understanding architectures are biased toward static information available in single frames. Presently, a methodology and corresponding dataset to isolate the effects of dynamic information in video are missing. Their absence makes it difficult to understand how well contemporary architectures capitalize on dynamic vs. static information. We respond with a novel Appearance Free Dataset (AFD) for action recognition. AFD is devoid of static information relevant to action recognition in a single frame. Modeling of the dynamics is necessary for solving the task, as the action is only apparent through consideration of the temporal dimension. We evaluated 11 contemporary action recognition architectures on AFD as well as its related RGB video. Our results show a notable decrease in performance for all architectures on AFD compared to RGB. We also conducted a complimentary study with humans that shows their recognition accuracy on AFD and RGB is very similar and much better than the evaluated architectures on AFD. Our results motivate a novel architecture that revives explicit recovery of optical flow, within a contemporary design for best performance on AFD and RGB.

arxiv情報

著者 Filip Ilic,Thomas Pock,Richard P. Wildes
発行日 2022-07-13 15:04:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク