要約
タイトル: アクション認識のためのフレーム選択パラダイム:Search-Map-Search
要約:
– 深層学習を用いた動画理解タスクの成功にもかかわらず、ビデオ内のすべてのフレームを処理することは計算上高コストで、リアルタイムアプリケーションではしばしば不要です。
– フレーム選択は、モデルがビデオコンテンツをより良く理解するために最も情報量豊富で代表的なフレームを抽出することを目的としています。
– 現存するフレーム選択手法は、フレーム間の相互作用を考慮せずにフレームごとの重要度予測に基づいて個別にフレームをサンプリングする選択方法と、代表的なフレームを見つけるための強化学習エージェントを採用するものが一般的です。
– 既存の手法の限界を克服するために、われわれはSearch-Map-Search学習パラダイムを提案しました。これはヒューリスティック探索と教師あり学習の利点を組み合わせ、ビデオから最適なフレームの組み合わせを1つのエンティティとして選択することができます。
– 提案された手法は、探索と学習を組み合わせることで、低い推論オーバーヘッドを発生させながらフレーム間の相互作用をよりよく捕捉できます。
– 具体的には、各トレーニングビデオで階層化された探索を提案し、ダウンストリームタスクで最小誤差の最適なフレームの組み合わせを探索します。その後、フレームのマッピング関数を学習して、ビデオのフレームをそのターゲット最適フレームの組み合わせの表現にマッピングします。推論時には、未知のビデオで別の探索を行い、予測された機能表現に近いフレームの組み合わせを選択します。
– アクション認識のいくつかのベンチマークに基づく広範な実験により、提案されたフレーム選択手法は、アクション認識モデルの性能を効果的に改善し、競合するベースラインを大幅に上回ることを示しています。
要約(オリジナル)
Despite the success of deep learning in video understanding tasks, processing every frame in a video is computationally expensive and often unnecessary in real-time applications. Frame selection aims to extract the most informative and representative frames to help a model better understand video content. Existing frame selection methods either individually sample frames based on per-frame importance prediction, without considering interaction among frames, or adopt reinforcement learning agents to find representative frames in succession, which are costly to train and may lead to potential stability issues. To overcome the limitations of existing methods, we propose a Search-Map-Search learning paradigm which combines the advantages of heuristic search and supervised learning to select the best combination of frames from a video as one entity. By combining search with learning, the proposed method can better capture frame interactions while incurring a low inference overhead. Specifically, we first propose a hierarchical search method conducted on each training video to search for the optimal combination of frames with the lowest error on the downstream task. A feature mapping function is then learned to map the frames of a video to the representation of its target optimal frame combination. During inference, another search is performed on an unseen video to select a combination of frames whose feature representation is close to the projected feature representation. Extensive experiments based on several action recognition benchmarks demonstrate that our frame selection method effectively improves performance of action recognition models, and significantly outperforms a number of competitive baselines.
arxiv情報
著者 | Mingjun Zhao,Yakun Yu,Xiaoli Wang,Lei Yang,Di Niu |
発行日 | 2023-04-20 13:49:53+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI