Language-Guided Self-Supervised Video Summarization Using Text Semantic Matching Considering the Diversity of the Video

要約

現在のビデオ要約手法は、教師ありコンピューター ビジョン技術に大きく依存しており、時間のかかる主観的な手動の注釈が必要です。
これらの制限を克服するために、私たちは自己教師付きビデオ要約を調査しました。
大規模言語モデル (LLM) の成功に触発されて、私たちはビデオ要約タスクを自然言語処理 (NLP) タスクに変換する実現可能性を調査しました。
コンテキスト理解における LLM の利点を活用することで、自己教師付きビデオ要約の有効性を高めることを目指しています。
私たちの方法は、個々のビデオ フレームのキャプションを生成することから始まり、LLM によってテキストの概要に合成されます。
続いて、キャプションとテキスト要約の間の意味的距離を測定します。
特に、ビデオの多様性に従ってモデルを最適化するための新しい損失関数を提案します。
最後に、テキスト要約と同様のキャプションが付いたフレームを選択することで、要約ビデオを生成できます。
私たちの方法は、ランク相関係数において SumMe データセットで最先端のパフォーマンスを達成します。
さらに、私たちの手法は、パーソナライズされた要約を実現できるという新しい特徴を持っています。

要約(オリジナル)

Current video summarization methods rely heavily on supervised computer vision techniques, which demands time-consuming and subjective manual annotations. To overcome these limitations, we investigated self-supervised video summarization. Inspired by the success of Large Language Models (LLMs), we explored the feasibility in transforming the video summarization task into a Natural Language Processing (NLP) task. By leveraging the advantages of LLMs in context understanding, we aim to enhance the effectiveness of self-supervised video summarization. Our method begins by generating captions for individual video frames, which are then synthesized into text summaries by LLMs. Subsequently, we measure semantic distance between the captions and the text summary. Notably, we propose a novel loss function to optimize our model according to the diversity of the video. Finally, the summarized video can be generated by selecting the frames with captions similar to the text summary. Our method achieves state-of-the-art performance on the SumMe dataset in rank correlation coefficients. In addition, our method has a novel feature of being able to achieve personalized summarization.

arxiv情報

著者 Tomoya Sugihara,Shuntaro Masuda,Ling Xiao,Toshihiko Yamasaki
発行日 2024-08-20 14:19:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク