Language-Guided Music Recommendation for Video via Prompt Analogies

要約

ユーザーが自由形式の自然言語で音楽選択をガイドできるようにしながら、入力ビデオに音楽を推奨する方法を提案します。
この問題設定の主な課題は、既存のミュージック ビデオ データセットが必要な (ビデオ、音楽) トレーニング ペアを提供しているものの、音楽のテキスト説明が不足していることです。
この研究では、次の 3 つの貢献によってこの課題に対処しています。
まず、事前にトレーニングされた音楽タガー出力と少数の人間のテキストを与えられた大規模言語モデル (BLOOM-176B) から自然言語音楽説明を生成する、アナロジーベースのプロンプト手順に依存するテキスト合成アプローチを提案します。
説明。
次に、これらの合成された音楽記述を使用して、テキストとビデオの入力表現を融合して音楽サンプルをクエリする新しい 3 峰性モデルをトレーニングします。
トレーニングのために、モデルのパフォーマンスにとって重要であることを示すテキスト ドロップアウト正則化メカニズムを導入します。
私たちのモデル設計では、ビデオで表現された視覚スタイルと、自然言語クエリで記述された音楽のジャンル、ムード、または楽器編成を一致させることにより、取得された音楽オーディオが 2 つの入力モダリティと一致するようにします。
3 番目に、私たちのアプローチを評価するために、YT8M-MusicVideo データセットからの 4k クリップのサブセットに、私たちが公開している自然言語の音楽説明で注釈を付けることにより、問題に対するテスト データセットを収集します。
私たちのアプローチは、テキストガイダンスを使用した場合の検索精度を大幅に向上させながら、ビデオから音楽への検索において従来の方法のパフォーマンスと同等またはそれを超えることができることを示します。

要約(オリジナル)

We propose a method to recommend music for an input video while allowing a user to guide music selection with free-form natural language. A key challenge of this problem setting is that existing music video datasets provide the needed (video, music) training pairs, but lack text descriptions of the music. This work addresses this challenge with the following three contributions. First, we propose a text-synthesis approach that relies on an analogy-based prompting procedure to generate natural language music descriptions from a large-scale language model (BLOOM-176B) given pre-trained music tagger outputs and a small number of human text descriptions. Second, we use these synthesized music descriptions to train a new trimodal model, which fuses text and video input representations to query music samples. For training, we introduce a text dropout regularization mechanism which we show is critical to model performance. Our model design allows for the retrieved music audio to agree with the two input modalities by matching visual style depicted in the video and musical genre, mood, or instrumentation described in the natural language query. Third, to evaluate our approach, we collect a testing dataset for our problem by annotating a subset of 4k clips from the YT8M-MusicVideo dataset with natural language music descriptions which we make publicly available. We show that our approach can match or exceed the performance of prior methods on video-to-music retrieval while significantly improving retrieval accuracy when using text guidance.

arxiv情報

著者 Daniel McKee,Justin Salamon,Josef Sivic,Bryan Russell
発行日 2023-06-15 17:58:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク