Towards Automated Movie Trailer Generation

要約

映画の予告編は、映画を宣伝し、観客を惹きつけるために欠かせないツールである。しかし、予告編の作成プロセスには時間とコストがかかる。このプロセスを効率化するために、ショットの選択と合成を自動化することにより、映画全体からもっともらしい予告編を生成する自動予告編生成フレームワークを提案する。我々のアプローチは機械翻訳技術からヒントを得ており、映画と予告編をショットのシーケンスとしてモデル化することで、予告編生成問題をシーケンス間のタスクとして定式化する。我々は、エンコーダ-デコーダアーキテクチャを利用したディープラーニングフレームワークであるTrailer Generation Transformer (TGT)を導入する。TGTのムービーエンコーダは、自己注意を介して各ムービーショットの表現を文脈化するタスクを負い、一方、自己回帰的な予告編デコーダは、予告編におけるショットの時間的順序の関連性を考慮して、次の予告編ショットの特徴表現を予測する。我々のTGTは、包括的なメトリクス群において、従来の手法を大幅に上回る。

要約(オリジナル)

Movie trailers are an essential tool for promoting films and attracting audiences. However, the process of creating trailers can be time-consuming and expensive. To streamline this process, we propose an automatic trailer generation framework that generates plausible trailers from a full movie by automating shot selection and composition. Our approach draws inspiration from machine translation techniques and models the movies and trailers as sequences of shots, thus formulating the trailer generation problem as a sequence-to-sequence task. We introduce Trailer Generation Transformer (TGT), a deep-learning framework utilizing an encoder-decoder architecture. TGT movie encoder is tasked with contextualizing each movie shot representation via self-attention, while the autoregressive trailer decoder predicts the feature representation of the next trailer shot, accounting for the relevance of shots’ temporal order in trailers. Our TGT significantly outperforms previous methods on a comprehensive suite of metrics.

arxiv情報

著者 Dawit Mureja Argaw,Mattia Soldan,Alejandro Pardo,Chen Zhao,Fabian Caba Heilbron,Joon Son Chung,Bernard Ghanem
発行日 2024-04-04 14:28:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク