要約
近年、画像合成やテキスト生成の分野でAIGC(Artificial Intelligence Generated Content)の進歩が目覚ましく、人間が作成したコンテンツと同等のコンテンツが生成されています。
しかし、AI によって生成された音楽の品質は、主に音楽の感情を効果的に制御し、高品質の出力を確保するという課題により、まだこの基準に達していません。
この論文では、感情的に制御可能な高品質の記号音楽を生成するための柔軟なプロンプト (つまり、画像、ビデオ、テキスト、タグ、ハミング) をサポートする、一般化された記号音楽生成フレームワークである XMusic を紹介します。
XMusic は、XProjector と XComposer という 2 つのコア コンポーネントで構成されます。
XProjector は、さまざまなモダリティのプロンプトを投影空間内の象徴的な音楽要素 (つまり、感情、ジャンル、リズム、音符) に解析して、一致する音楽を生成します。
XComposer にはジェネレーターとセレクターが含まれています。
ジェネレーターは、革新的な記号音楽表現に基づいて感情的に制御可能なメロディアスな音楽を生成します。一方、セレクターは、品質評価、感情認識、ジャンル認識タスクを含むマルチタスク学習スキームを構築することによって高品質の記号音楽を識別します。
さらに、正確な感情とジャンルのラベルが付けられた 108,023 個の MIDI ファイルを含む大規模な記号音楽データセットである XMIDI を構築します。
客観的および主観的な評価により、XMusic は現在の最先端の方法を大幅に上回り、優れた音楽品質を備えていることが示されています。
当社の XMusic は、WAIC 2023 で収集品の 9 つのハイライトのうちの 1 つとして受賞しました。XMusic のプロジェクトのホームページは https://xmusic-project.github.io です。
要約(オリジナル)
In recent years, remarkable advancements in artificial intelligence-generated content (AIGC) have been achieved in the fields of image synthesis and text generation, generating content comparable to that produced by humans. However, the quality of AI-generated music has not yet reached this standard, primarily due to the challenge of effectively controlling musical emotions and ensuring high-quality outputs. This paper presents a generalized symbolic music generation framework, XMusic, which supports flexible prompts (i.e., images, videos, texts, tags, and humming) to generate emotionally controllable and high-quality symbolic music. XMusic consists of two core components, XProjector and XComposer. XProjector parses the prompts of various modalities into symbolic music elements (i.e., emotions, genres, rhythms and notes) within the projection space to generate matching music. XComposer contains a Generator and a Selector. The Generator generates emotionally controllable and melodious music based on our innovative symbolic music representation, whereas the Selector identifies high-quality symbolic music by constructing a multi-task learning scheme involving quality assessment, emotion recognition, and genre recognition tasks. In addition, we build XMIDI, a large-scale symbolic music dataset that contains 108,023 MIDI files annotated with precise emotion and genre labels. Objective and subjective evaluations show that XMusic significantly outperforms the current state-of-the-art methods with impressive music quality. Our XMusic has been awarded as one of the nine Highlights of Collectibles at WAIC 2023. The project homepage of XMusic is https://xmusic-project.github.io.
arxiv情報
著者 | Sida Tian,Can Zhang,Wei Yuan,Wei Tan,Wenjie Zhu |
発行日 | 2025-01-15 14:08:44+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google