要約
トレーラーを作成するには、長いビデオから短い魅力的な瞬間を慎重に選択してつなぎ合わせる必要があり、挑戦的で時間のかかる作業です。
これには、視覚情報と対話情報の両方に基づいて瞬間を選択する必要があります。
編集者が長編ビデオから予告編にふさわしい瞬間を選択できるように、予告編らしさを予測するためのマルチモーダルな方法を導入します。
新たに導入されたメロドラマ データセットに関する結果を提示し、トレーラーネスの予測がマルチモーダル情報の恩恵を受ける困難なタスクであることを実証します。
コードは https://github.com/carlobretti/cliffhanger で入手できます。
要約(オリジナル)
Creating a trailer requires carefully picking out and piecing together brief enticing moments out of a longer video, making it a chal- lenging and time-consuming task. This requires selecting moments based on both visual and dialogue information. We introduce a multi-modal method for predicting the trailerness to assist editors in selecting trailer- worthy moments from long-form videos. We present results on a newly introduced soap opera dataset, demonstrating that predicting trailerness is a challenging task that benefits from multi-modal information. Code is available at https://github.com/carlobretti/cliffhanger
arxiv情報
著者 | Carlo Bretti,Pascal Mettes,Hendrik Vincent Koops,Daan Odijk,Nanne van Noord |
発行日 | 2024-01-29 11:34:36+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google