MITFAS: Mutual Information based Temporal Feature Alignment and Sampling for Aerial Video Action Recognition

要約

UAV ビデオにおけるアクション認識のための新しいアプローチを紹介します。
私たちの定式化は、UAV の動きによって引き起こされるオクルージョンと視点の変更を処理するように設計されています。
相互情報量の概念を使用して、時間領域での人間の動作や動きに対応する領域を計算して位置合わせします。
これにより、認識モデルがモーションに関連付けられた主要な特徴から学習できるようになります。
また、結合相互情報量を使用して UAV ビデオで最も有益なフレーム シーケンスを取得する新しいフレーム サンプリング方法も提案します。
私たちはアプローチを X3D と統合し、複数のデータセットでパフォーマンスを評価しました。
実際、UAV-Human では現在の最先端の方法と比べてトップ 1 の精度で 18.9% の向上 (Li et al., 2021)、Drone-Action では 7.3% の向上を達成しています (Perera et al., 2019)
)、NEC Drones では 7.16% 向上しました (Choi et al.、2020)。

要約(オリジナル)

We present a novel approach for action recognition in UAV videos. Our formulation is designed to handle occlusion and viewpoint changes caused by the movement of a UAV. We use the concept of mutual information to compute and align the regions corresponding to human action or motion in the temporal domain. This enables our recognition model to learn from the key features associated with the motion. We also propose a novel frame sampling method that uses joint mutual information to acquire the most informative frame sequence in UAV videos. We have integrated our approach with X3D and evaluated the performance on multiple datasets. In practice, we achieve 18.9% improvement in Top-1 accuracy over current state-of-the-art methods on UAV-Human(Li et al., 2021), 7.3% improvement on Drone-Action(Perera et al., 2019), and 7.16% improvement on NEC Drones(Choi et al., 2020).

arxiv情報

著者 Ruiqi Xian,Xijun Wang,Dinesh Manocha
発行日 2023-11-15 23:42:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク