Emotion-Guided Image to Music Generation

要約

画像から音楽を生成すると、写真スライドショー、ソーシャル メディア エクスペリエンス、ビデオ作成用の BGM など、さまざまなアプリケーションを強化できます。
この論文では、ヴァレンス・アローサル (VA) 感情空間を活用して、特定の画像の感情的な調子に合わせた音楽を生成する、感情に導かれた画像から音楽への生成フレームワークを紹介します。
感情の一貫性を対照学習に依存する以前のモデルとは異なり、提案されたアプローチは VA 損失関数を直接統合して、正確な感情の調整を可能にします。
このモデルは CNN-Transformer アーキテクチャを採用しており、事前トレーニングされた CNN 画像特徴抽出器と 3 つの Transformer エンコーダを備え、MIDI 音楽から複雑で高レベルの感情的特徴をキャプチャします。
3 つの Transformer デコーダーがこれらの機能を改良して、音楽的および感情的に一貫した MIDI シーケンスを生成します。
新しく厳選された感情的にペアになった画像と MIDI データセットの実験結果は、ポリフォニー レート、ピッチ エントロピー、グルーブの一貫性、損失収束などの指標全体にわたって、提案されたモデルの優れたパフォーマンスを示しています。

要約(オリジナル)

Generating music from images can enhance various applications, including background music for photo slideshows, social media experiences, and video creation. This paper presents an emotion-guided image-to-music generation framework that leverages the Valence-Arousal (VA) emotional space to produce music that aligns with the emotional tone of a given image. Unlike previous models that rely on contrastive learning for emotional consistency, the proposed approach directly integrates a VA loss function to enable accurate emotional alignment. The model employs a CNN-Transformer architecture, featuring pre-trained CNN image feature extractors and three Transformer encoders to capture complex, high-level emotional features from MIDI music. Three Transformer decoders refine these features to generate musically and emotionally consistent MIDI sequences. Experimental results on a newly curated emotionally paired image-MIDI dataset demonstrate the proposed model’s superior performance across metrics such as Polyphony Rate, Pitch Entropy, Groove Consistency, and loss convergence.

arxiv情報

著者 Souraja Kundu,Saket Singh,Yuji Iwahori
発行日 2024-10-29 17:47:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.SD, eess.IV パーマリンク