TeViS:Translating Text Synopses to Video Storyboards

要約

ビデオ ストーリーボードは、重要なプロットをテキストの概要で視覚化するためのショットごとの画像で構成されるビデオ作成のロードマップです。
しかし、ビデオ ストーリーボードの作成は依然として困難であり、高レベルのテキストと画像の間のクロスモーダルな関連付けが必要なだけでなく、ショット間の移行をスムーズにするための長期的な推論も必要となります。
この論文では、テキスト概要をビデオ ストーリーボードに変換 (TeViS) と呼ばれる新しいタスクを提案します。このタスクは、順序付けられた一連の画像をビデオ ストーリーボードとして取得し、テキスト概要を視覚化することを目的としています。
公開されている MovieNet データセットに基づいて MovieNet-TeViS データセットを構築します。
これには、関連性と映画の一貫性の両方を考慮して、対応する映画から手動で選択されたキーフレームとそれぞれペアになった 10,000 のテキスト概要が含まれています。
このタスクのベンチマークを行うために、強力な CLIP ベースのベースラインと新しい VQ-Trans を紹介します。
VQ-Trans は、まずテキストの概要と画像を結合埋め込み空間にエンコードし、ベクトル量子化 (VQ) を使用して視覚的表現を改善します。
次に、検索と順序付けのための一連の視覚的特徴を自動回帰的に生成します。
実験結果は、VQ-Trans が従来の方法や CLIP ベースのベースラインよりも大幅に優れていることを示しています。
それにもかかわらず、人間のパフォーマンスと比較するとまだ大きなギャップがあり、将来の有望な研究の余地があることを示唆しています。
コードとデータは \url{https://ruc-aimind.github.io/projects/TeViS/} から入手できます。

要約(オリジナル)

A video storyboard is a roadmap for video creation which consists of shot-by-shot images to visualize key plots in a text synopsis. Creating video storyboards, however, remains challenging which not only requires cross-modal association between high-level texts and images but also demands long-term reasoning to make transitions smooth across shots. In this paper, we propose a new task called Text synopsis to Video Storyboard (TeViS) which aims to retrieve an ordered sequence of images as the video storyboard to visualize the text synopsis. We construct a MovieNet-TeViS dataset based on the public MovieNet dataset. It contains 10K text synopses each paired with keyframes manually selected from corresponding movies by considering both relevance and cinematic coherence. To benchmark the task, we present strong CLIP-based baselines and a novel VQ-Trans. VQ-Trans first encodes text synopsis and images into a joint embedding space and uses vector quantization (VQ) to improve the visual representation. Then, it auto-regressively generates a sequence of visual features for retrieval and ordering. Experimental results demonstrate that VQ-Trans significantly outperforms prior methods and the CLIP-based baselines. Nevertheless, there is still a large gap compared to human performance suggesting room for promising future work. The code and data are available at: \url{https://ruc-aimind.github.io/projects/TeViS/}

arxiv情報

著者 Xu Gu,Yuchong Sun,Feiyue Ni,Shizhe Chen,Xihua Wang,Ruihua Song,Boyuan Li,Xiang Cao
発行日 2023-08-29 13:10:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク