Learning to Summarize Videos by Contrasting Clips

要約

タイトル:学習を通じた動画の要約化:クリップ間の対比による

要約:
– 動画の要約化は、できるだけオリジナルに近いストーリーを語る部分を選択することを目的とする。
– 既存の動画要約化アプローチの大部分は手作りのラベルに焦点を当てている。
– 巨大な数の動画の出現に伴い、ラベルの付いていないアノテーションを使用して有意義な要約を学ぶことの必要性が増している。
– 本論文では、いくつかのパーソナライズされたラベルを補助として、非教師指導型動画要約化を最大限に活用することを目的としている。
– そのために、情報量の多い動画要約の主要な要件を公式化して、対比学習を回答として提案している。
– さらに、既存の方法で使用されている平均動画特徴量ではなく、上位k個の特徴量を対比させることでコントラスティブ動画要約(CSUM)をさらに促進する方法を提案している。
– 可能な場合、ラベルの付いていないデータを使用している場合でも、多様性のある有意義な要約を許容する結果を示すいくつかのベンチマーク実験が行われた。

要約(オリジナル)

Video summarization aims at choosing parts of a video that narrate a story as close as possible to the original one. Most of the existing video summarization approaches focus on hand-crafted labels. As the number of videos grows exponentially, there emerges an increasing need for methods that can learn meaningful summarizations without labeled annotations. In this paper, we aim to maximally exploit unsupervised video summarization while concentrating the supervision to a few, personalized labels as an add-on. To do so, we formulate the key requirements for the informative video summarization. Then, we propose contrastive learning as the answer to both questions. To further boost Contrastive video Summarization (CSUM), we propose to contrast top-k features instead of a mean video feature as employed by the existing method, which we implement with a differentiable top-k feature selector. Our experiments on several benchmarks demonstrate, that our approach allows for meaningful and diverse summaries when no labeled data is provided.

arxiv情報

著者 Ivan Sosnovik,Artem Moskalev,Cees Kaandorp,Arnold Smeulders
発行日 2023-04-19 12:09:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク