AutoTransition: Learning to Recommend Video Transition Effects

要約

ビデオトランジションエフェクトは、ビデオ編集で広く使用されており、ショットを接続して、まとまりのある視覚的に魅力的なビデオを作成します。
ただし、映画の知識と設計スキルが不足しているため、専門家以外の人が最適なトランジションを選択することは困難です。
このホワイトペーパーでは、自動ビデオトランジション推奨(VTR)の実行に関する主要な作業を紹介します。一連の生のビデオショットとコンパニオンオーディオを前提として、隣接するショットの各ペアのビデオトランジションを推奨します。
このタスクを解決するために、編集ソフトウェアで公開されているビデオテンプレートを使用して、大規模なビデオ遷移データセットを収集します。
次に、VTRをビジョン/オーディオからビデオへの遷移からのマルチモーダル検索問題として定式化し、2つの部分で構成される新しいマルチモーダルマッチングフレームワークを提案します。
まず、ビデオトランジション分類タスクを通じてビデオトランジションの埋め込みについて学習します。
次に、ビジョン/オーディオ入力からビデオ遷移までの一致する対応を学習するためのモデルを提案します。
具体的には、提案されたモデルは、マルチモーダルトランスフォーマーを使用して、視覚情報と音声情報を融合し、順次遷移出力でコンテキストキューをキャプチャします。
定量的実験と定性的実験の両方を通じて、私たちは私たちの方法の有効性を明確に示しています。
特に、包括的なユーザー調査では、私たちの方法は、\ textbf {300 \ scalebox {1.25} {$ \ times $}}によってビデオ編集効率を向上させながら、プロの編集者と比較して同等のスコアを受け取ります。
私たちの仕事が、他の研究者にこの新しい課題に取り組むきっかけとなることを願っています。
データセットとコードは\url{https://github.com/acherstyx/AutoTransition}で公開されています。

要約(オリジナル)

Video transition effects are widely used in video editing to connect shots for creating cohesive and visually appealing videos. However, it is challenging for non-professionals to choose best transitions due to the lack of cinematographic knowledge and design skills. In this paper, we present the premier work on performing automatic video transitions recommendation (VTR): given a sequence of raw video shots and companion audio, recommend video transitions for each pair of neighboring shots. To solve this task, we collect a large-scale video transition dataset using publicly available video templates on editing softwares. Then we formulate VTR as a multi-modal retrieval problem from vision/audio to video transitions and propose a novel multi-modal matching framework which consists of two parts. First we learn the embedding of video transitions through a video transition classification task. Then we propose a model to learn the matching correspondence from vision/audio inputs to video transitions. Specifically, the proposed model employs a multi-modal transformer to fuse vision and audio information, as well as capture the context cues in sequential transition outputs. Through both quantitative and qualitative experiments, we clearly demonstrate the effectiveness of our method. Notably, in the comprehensive user study, our method receives comparable scores compared with professional editors while improving the video editing efficiency by \textbf{300\scalebox{1.25}{$\times$}}. We hope our work serves to inspire other researchers to work on this new task. The dataset and codes are public at \url{https://github.com/acherstyx/AutoTransition}.

arxiv情報

著者 Yaojie Shen,Libo Zhang,Kai Xu,Xiaojie Jin
発行日 2022-07-27 12:00:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.MM パーマリンク