Role of Audio in Audio-Visual Video Summarization

要約

映像の要約は、映像の表現、検索、閲覧を効率的に行い、映像の量やトラフィックの急増の問題を緩和するために注目されている。ビデオ要約は主に視覚チャネルを使用してコンパクションを行うが、最近の文献ではオーディオビジュアルモデリングの利点が登場した。オーディオチャンネルから来る情報は、ビデオコンテンツのオーディオビジュアル相関の結果である可能性がある。本研究では、GRUベースと注意ベースのネットワークによるオーディオビジュアル情報融合の4つの方法を統合した、新しいオーディオビジュアルビデオ要約フレームワークを提案する。さらに、ビデオ要約タスクにおけるオーディオビジュアルの役割をより良く理解し説明するために、オーディオビジュアルの正準相関分析(CCA)を用いた新しい説明可能性方法論を検討する。TVSumデータセットでの実験評価では、オーディオビジュアルビデオ要約のF1スコアとKendall-tauスコアの改善を達成した。さらに、オーディオビジュアルCCAに基づいてTVSumとCOGNIMUSEデータセットのビデオコンテンツを正と負の相関のあるビデオとして分割すると、オーディオのみとオーディオビジュアルビデオ要約において正相関のビデオよりも強い性能向上が得られる。

要約(オリジナル)

Video summarization attracts attention for efficient video representation, retrieval, and browsing to ease volume and traffic surge problems. Although video summarization mostly uses the visual channel for compaction, the benefits of audio-visual modeling appeared in recent literature. The information coming from the audio channel can be a result of audio-visual correlation in the video content. In this study, we propose a new audio-visual video summarization framework integrating four ways of audio-visual information fusion with GRU-based and attention-based networks. Furthermore, we investigate a new explainability methodology using audio-visual canonical correlation analysis (CCA) to better understand and explain the role of audio in the video summarization task. Experimental evaluations on the TVSum dataset attain F1 score and Kendall-tau score improvements for the audio-visual video summarization. Furthermore, splitting video content on TVSum and COGNIMUSE datasets based on audio-visual CCA as positively and negatively correlated videos yields a strong performance improvement over the positively correlated videos for audio-only and audio-visual video summarization.

arxiv情報

著者 Ibrahim Shoer,Berkay Kopru,Engin Erzin
発行日 2022-12-02 09:11:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS パーマリンク