要約
情報へのアクセスが容易になるにつれて、ユーザーが作成したビデオの長さは増加しており、貴重な洞察を得るために膨大なコンテンツをふるい分けることが視聴者に負担となっています。
この傾向は、重要なビデオ情報を効率的に抽出するアルゴリズムの必要性を強調しています。
ハイライト検出、モーメント検索、ビデオ要約の大幅な進歩にも関わらず、現在のアプローチは主に特定の時間間隔の選択に焦点を当てており、セグメント間の関連性やセグメント配置の可能性が見落とされていることがよくあります。
このペーパーでは、ビデオ トリミング (VT) と呼ばれる新しいタスクを紹介します。このタスクは、無駄な映像を検出し、価値のあるセグメントを選択し、それらを一貫したストーリーを持つ最終的なビデオに合成することに重点を置いています。
このタスクに対処するために、ビデオ構造化、クリップ フィルタリング、ストーリー構成の 3 つのフェーズで構成されるエージェントベースのビデオ トリミング (AVT) を提案します。
具体的には、ビデオ キャプション エージェントを使用してビデオ スライスを構造化されたテキスト説明に変換し、フィルタリング モジュールを使用して各クリップの構造化情報に基づいて低品質の映像を動的に破棄し、ビデオ アレンジメント エージェントを使用して有効なクリップを選択して一貫したクリップにコンパイルします。
最後の物語。
評価にあたっては、トリミングされた動画を評価する「動画評価エージェント」を開発し、人による評価と並行して評価を行っています。
さらに、インターネットからの未加工のユーザー ビデオを使用して、ビデオ トリミング用の新しいベンチマーク データセットを厳選しました。
その結果、AVT はユーザー調査でより好ましい評価を受け、YouTube ハイライト、TVSum、およびハイライト検出タスク用の独自のデータセットで優れた mAP と精度を実証しました。
コードとモデルは https://ylingfeng.github.io/AVT で入手できます。
要約(オリジナル)
As information becomes more accessible, user-generated videos are increasing in length, placing a burden on viewers to sift through vast content for valuable insights. This trend underscores the need for an algorithm to extract key video information efficiently. Despite significant advancements in highlight detection, moment retrieval, and video summarization, current approaches primarily focus on selecting specific time intervals, often overlooking the relevance between segments and the potential for segment arranging. In this paper, we introduce a novel task called Video Trimming (VT), which focuses on detecting wasted footage, selecting valuable segments, and composing them into a final video with a coherent story. To address this task, we propose Agent-based Video Trimming (AVT), structured into three phases: Video Structuring, Clip Filtering, and Story Composition. Specifically, we employ a Video Captioning Agent to convert video slices into structured textual descriptions, a Filtering Module to dynamically discard low-quality footage based on the structured information of each clip, and a Video Arrangement Agent to select and compile valid clips into a coherent final narrative. For evaluation, we develop a Video Evaluation Agent to assess trimmed videos, conducting assessments in parallel with human evaluations. Additionally, we curate a new benchmark dataset for video trimming using raw user videos from the internet. As a result, AVT received more favorable evaluations in user studies and demonstrated superior mAP and precision on the YouTube Highlights, TVSum, and our own dataset for the highlight detection task. The code and models are available at https://ylingfeng.github.io/AVT.
arxiv情報
著者 | Lingfeng Yang,Zhenyuan Chen,Xiang Li,Peiyang Jia,Liangqu Long,Jian Yang |
発行日 | 2024-12-12 17:59:28+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google