Visual Subtitle Feature Enhanced Video Outline Generation

要約

ビデオの数がとてつもなく増加しているため、興味のあるビデオ セグメントにすばやく移動するのに役立つ技術に対する大きな需要があります。
ビデオの構造を調べます。
テキストのアウトライン生成に触発されて、新しいビデオ理解タスク、つまりビデオ アウトライン生成 (VOG) を紹介します。
このタスクは、2 つのサブタスクを含むように定義されています。(1) 最初にコンテンツ構造に従ってビデオをセグメント化し、次に (2) 各セグメントの見出しを生成します。
VOG を学習して評価するために、DuVOG と呼ばれる 10k+ データセットに注釈を付けます。
具体的には、OCR ツールを使用して動画の字幕を認識します。
次に、注釈者は字幕を章に分割し、各章にタイトルを付けるよう求められます。
ビデオでは、強調表示されたテキストが注目を集める可能性が高いため、見出しになる傾向があります。
したがって、視覚的なフォントのサイズと位置と共にテキストの字幕を入力として受け取る、視覚的な字幕機能の強化されたビデオ アウトライン生成モデル (VSENet) を提案します。
VOGタスクは、見出しが配置されているスパンを抽出し、それらを書き換えて最終的なアウトラインを形成するシーケンスタグ付け問題と見なします。
さらに、ビデオのアウトラインとテキストのアウトラインの類似性に基づいて、章見出しのある多数の記事を使用してモデルを事前トレーニングします。
DuVOG での実験では、ビデオ セグメンテーション レベルで 77.1 の F1 スコア、見出し生成レベルで ROUGE-L_F0.5 の 85.0 を達成し、モデルが他のベースライン メソッドよりも大幅に優れていることが示されています。

要約(オリジナル)

With the tremendously increasing number of videos, there is a great demand for techniques that help people quickly navigate to the video segments they are interested in. However, current works on video understanding mainly focus on video content summarization, while little effort has been made to explore the structure of a video. Inspired by textual outline generation, we introduce a novel video understanding task, namely video outline generation (VOG). This task is defined to contain two sub-tasks: (1) first segmenting the video according to the content structure and then (2) generating a heading for each segment. To learn and evaluate VOG, we annotate a 10k+ dataset, called DuVOG. Specifically, we use OCR tools to recognize subtitles of videos. Then annotators are asked to divide subtitles into chapters and title each chapter. In videos, highlighted text tends to be the headline since it is more likely to attract attention. Therefore we propose a Visual Subtitle feature Enhanced video outline generation model (VSENet) which takes as input the textual subtitles together with their visual font sizes and positions. We consider the VOG task as a sequence tagging problem that extracts spans where the headings are located and then rewrites them to form the final outlines. Furthermore, based on the similarity between video outlines and textual outlines, we use a large number of articles with chapter headings to pretrain our model. Experiments on DuVOG show that our model largely outperforms other baseline methods, achieving 77.1 of F1-score for the video segmentation level and 85.0 of ROUGE-L_F0.5 for the headline generation level.

arxiv情報

著者 Qi Lv,Ziqiang Cao,Wenrui Xie,Derui Wang,Jingwen Wang,Zhiwei Hu,Tangkun Zhang,Ba Yuan,Yuanhang Li,Min Cao,Wenjie Li,Sujian Li,Guohong Fu
発行日 2022-09-01 07:26:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV パーマリンク