要約
ビデオ、特に乱雑なシーン内のアクションを検出することは、カメラの観点から見た 2D フレーム分析の制限により、重大な課題を引き起こします。
3D 理解を活用する人間の視覚とは異なり、そのような環境での動作を認識するのは困難な場合があります。
この研究では、アクション認識の精度を高めるために、RGB 機能に加えて 3D 機能と深度マップを統合する新しいアプローチを導入しています。
私たちの手法では、RGB 特徴エンコーダーからの別の分岐を通じて推定深度マップを処理し、特徴を融合してシーンとアクションを包括的に理解します。
空間特徴抽出に CLIP と VisionMamba を使用する Side4Video フレームワークと VideoMamba を使用した私たちのアプローチは、Something-Something V2 データセットでの Side4Video ネットワークの実装を上回りました。
私たちのコードはhttps://github.com/SadeghRahmaniB/DEARから入手できます。
要約(オリジナル)
Detecting actions in videos, particularly within cluttered scenes, poses significant challenges due to the limitations of 2D frame analysis from a camera perspective. Unlike human vision, which benefits from 3D understanding, recognizing actions in such environments can be difficult. This research introduces a novel approach integrating 3D features and depth maps alongside RGB features to enhance action recognition accuracy. Our method involves processing estimated depth maps through a separate branch from the RGB feature encoder and fusing the features to understand the scene and actions comprehensively. Using the Side4Video framework and VideoMamba, which employ CLIP and VisionMamba for spatial feature extraction, our approach outperformed our implementation of the Side4Video network on the Something-Something V2 dataset. Our code is available at: https://github.com/SadeghRahmaniB/DEAR
arxiv情報
著者 | Sadegh Rahmaniboldaji,Filip Rybansky,Quoc Vuong,Frank Guerin,Andrew Gilbert |
発行日 | 2024-09-12 13:31:48+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google