Motion meets Attention: Video Motion Prompts

要約

動画には豊富な時空間情報が含まれている。アクション認識などのタスクで使用される従来のモーション抽出方法は、多くの場合、正確なモーション特徴ではなく、ビジュアルコンテンツに依存している。この現象は「ブラインドモーション抽出」と呼ばれ、モーションガイドとなる手がかりがないため、興味のあるモーションを捉えるには非効率的である。近年、注意メカニズムは、顕著な視覚領域を効果的に強調することにより、多くのコンピュータビジョンタスクを向上させている。これに触発され、我々は、フレーム差分マップから得られる動き信号を活性化し変調するための注意メカニズムとして、学習可能な勾配とシフトパラメータを持つ修正シグモイド関数の使用を提案する。このアプローチは、動きに関連した映像コンテンツの処理を強化する一連の注意マップを生成する。注意マップの時間的連続性と滑らかさを保証するために、重要なものを保存しながら不要な動き(例えば、ノイズ)を除去するために、一対の時間的注意変動正則化を適用する。次に、注目マップの各ペアと元のビデオフレームとの間でハダマルド積を行い、時間的に進化する注目のモーションを強調する。これらの強調されたモーションはビデオモーションプロンプトと呼ばれ、その後、元のビデオフレームの代わりにモデルへの入力として使われる。我々はこのプロセスをモーションプロンプトレイヤーとして定式化し、より良いモーションプロンプトを学習するために、正則化項を損失関数に組み込む。このレイヤーはモデルとビデオデータ間のアダプターとして機能し、従来の「ブラインドモーション抽出」と、関心のある関連モーションの抽出とのギャップを埋める。

要約(オリジナル)

Videos contain rich spatio-temporal information. Traditional methods for extracting motion, used in tasks such as action recognition, often rely on visual contents rather than precise motion features. This phenomenon is referred to as ‘blind motion extraction’ behavior, which proves inefficient in capturing motions of interest due to a lack of motion-guided cues. Recently, attention mechanisms have enhanced many computer vision tasks by effectively highlighting salient visual areas. Inspired by this, we propose using a modified Sigmoid function with learnable slope and shift parameters as an attention mechanism to activate and modulate motion signals derived from frame differencing maps. This approach generates a sequence of attention maps that enhance the processing of motion-related video content. To ensure temporally continuity and smoothness of the attention maps, we apply pair-wise temporal attention variation regularization to remove unwanted motions (e.g., noise) while preserving important ones. We then perform Hadamard product between each pair of attention maps and the original video frames to highlight the evolving motions of interest over time. These highlighted motions, termed video motion prompts, are subsequently used as inputs to the model instead of the original video frames. We formalize this process as a motion prompt layer and incorporate the regularization term into the loss function to learn better motion prompts. This layer serves as an adapter between the model and the video data, bridging the gap between traditional ‘blind motion extraction’ and the extraction of relevant motions of interest.

arxiv情報

著者 Qixiang Chen,Lei Wang,Piotr Koniusz,Tom Gedeon
発行日 2024-07-03 14:59:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク