要約
テキストから音楽へのモデルを使用すると、ユーザーはテキスト コマンドを使用して、ほぼ現実的な音楽オーディオを生成できます。
ただし、シンプルなユーザー インターフェイスを維持しながらオーディオに対してきめ細かい変更を実行するという相反する要求があるため、音楽オーディオの編集は依然として困難です。
この課題に対処するために、事前トレーニングされたテキストから音楽へのモデルへの軽量の追加であるオーディオ プロンプト アダプター (または AP アダプター) を提案します。
AudioMAE を利用して入力オーディオから特徴を抽出し、これらの特徴を拡散ベースのテキスト音楽モデルである AudioLDM2 の内部層にフィードするアテンションベースのアダプターを構築します。
2,200 万のトレーニング可能なパラメータを備えた AP アダプターにより、ユーザーは元のオーディオと短いテキストを入力として使用して、音楽のグローバル (ジャンルや音色など) とローカル (メロディーなど) の両方の側面を活用できるようになります。
客観的および主観的な研究を通じて、音色転送、ジャンル転送、伴奏生成の 3 つのタスクに関して AP アダプターを評価します。
さらに、トレーニング中に目に見えない楽器を含むドメイン外のオーディオでもその効果を実証します。
要約(オリジナル)
Text-to-music models allow users to generate nearly realistic musical audio with textual commands. However, editing music audios remains challenging due to the conflicting desiderata of performing fine-grained alterations on the audio while maintaining a simple user interface. To address this challenge, we propose Audio Prompt Adapter (or AP-Adapter), a lightweight addition to pretrained text-to-music models. We utilize AudioMAE to extract features from the input audio, and construct attention-based adapters to feedthese features into the internal layers of AudioLDM2, a diffusion-based text-to-music model. With 22M trainable parameters, AP-Adapter empowers users to harness both global (e.g., genre and timbre) and local (e.g., melody) aspects of music, using the original audio and a short text as inputs. Through objective and subjective studies, we evaluate AP-Adapter on three tasks: timbre transfer, genre transfer, and accompaniment generation. Additionally, we demonstrate its effectiveness on out-of-domain audios containing unseen instruments during training.
arxiv情報
| 著者 | Fang-Duo Tsai,Shih-Lun Wu,Haven Kim,Bo-Yu Chen,Hao-Chung Cheng,Yi-Hsuan Yang | 
| 発行日 | 2024-07-24 11:12:15+00:00 | 
| arxivサイト | arxiv_id(pdf) | 
提供元, 利用サービス
arxiv.jp, Google
