要約
ビデオ要約方法は通常、ショットレベルまたはフレームレベルの方法に分類され、一般的な方法で個別に使用されます。
この論文は、フレームレベルとショットレベルの方法の間の根底にある相補性を調査し、監視されたビデオ要約のためにスタッキングアンサンブルアプローチを提案した。
まず、スタッキングモデルを構築して、キーフレーム確率と時間的関心セグメントの両方を同時に予測します。
次に、2つのコンポーネントがソフト決定融合によって結合され、ビデオの各フレームの最終スコアが取得されます。
ここでは、モデルをトレーニングするためにジョイント損失関数を提案します。
アブレーション実験結果は、提案された方法が2つの対応する個々の方法の両方よりも優れていることを示している。
さらに、2つのベンチマークデータセットに関する広範な実験と分析により、最先端の方法と比較して、私たちの方法の有効性とその優れたパフォーマンスが実証されています。
要約(オリジナル)
Video summarization methods are usually classified into shot-level or frame-level methods, which are individually used in a general way. This paper investigates the underlying complementarity between the frame-level and shot-level methods, and a stacking ensemble approach is proposed for supervised video summarization. Firstly, we build up a stacking model to predict both the key frame probabilities and the temporal interest segments simultaneously. The two components are then combined via soft decision fusion to obtain the final scores of each frame in the video. A joint loss function is proposed here to train the model. The ablation experimental results show that the proposed method outperforms both the two corresponding individual method. Furthermore, extensive experiments and analysis on two benchmark datasets demonstrate the effectiveness of our method and its superior performance in comparison with the state-of-the-art methods.
arxiv情報
著者 | Yubo An,Shenghui Zhao,Guoqiang Zhang |
発行日 | 2022-06-23 12:59:27+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google