要約
自己中心的なビデオにおけるアクション認識を理解することは、数多くの実用化を伴う重要な研究テーマとして浮上しています。
自己中心的なデータ収集の規模には限界があるため、堅牢な深層学習ベースの行動認識モデルを学習することは依然として困難です。
大規模なエゴセントリック データから学習した知識をエゴセントリック データに移すことは、ビューごとにビデオが異なるため、困難です。
私たちの研究では、知識を外中心的な視点から利己的な視点に効果的に伝達する、行動認識 (CVAR) に対する新しい視点を越えた学習アプローチを導入しています。
まず、2 つのビュー間のカメラ位置の分析に基づいて、Transformer のセルフ アテンション メカニズムに新しい幾何学ベースの制約を提示します。
次に、ビュー間で知識を伝達するための自己注意メカニズムの学習を強化するために、対になっていないクロスビュー データで学習された新しいクロスビュー自己注意喪失を提案します。
最後に、クロスビュー学習アプローチのパフォーマンスをさらに向上させるために、ビデオとアテンション マップの相関関係を効果的に測定するためのメトリクスを提示します。
標準的な自己中心的行動認識ベンチマーク、つまり Charades-Ego、EPIC-Kitchens-55、および EPIC-Kitchens-100 での実験結果は、私たちのアプローチの有効性と最先端のパフォーマンスを示しています。
要約(オリジナル)
Understanding action recognition in egocentric videos has emerged as a vital research topic with numerous practical applications. With the limitation in the scale of egocentric data collection, learning robust deep learning-based action recognition models remains difficult. Transferring knowledge learned from the large-scale exocentric data to the egocentric data is challenging due to the difference in videos across views. Our work introduces a novel cross-view learning approach to action recognition (CVAR) that effectively transfers knowledge from the exocentric to the selfish view. First, we present a novel geometric-based constraint into the self-attention mechanism in Transformer based on analyzing the camera positions between two views. Then, we propose a new cross-view self-attention loss learned on unpaired cross-view data to enforce the self-attention mechanism learning to transfer knowledge across views. Finally, to further improve the performance of our cross-view learning approach, we present the metrics to measure the correlations in videos and attention maps effectively. Experimental results on standard egocentric action recognition benchmarks, i.e., Charades-Ego, EPIC-Kitchens-55, and EPIC-Kitchens-100, have shown our approach’s effectiveness and state-of-the-art performance.
arxiv情報
著者 | Thanh-Dat Truong,Khoa Luu |
発行日 | 2024-05-15 17:31:59+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google