要約
生成的AIと人間の芸術的プロセスが交錯する中、本研究では、人間中心の自動作曲におけるアライメントという、重要でありながらあまり調査されていない領域を探求する。我々は、生成されたコンテンツを口語的な人間の表現と整合させることに焦点を当てた、口語的な説明から歌への生成という新しいタスクを提案する。このタスクは、AIモデル内で口語的言語理解と聴覚表現のギャップを埋めることを目的としており、人間の聴覚的期待を正確に満たし、構造的に音楽的規範に沿った楽曲を作成することを最終目標としている。現在のデータセットは、記述範囲が狭く、意味的なギャップがあり、不正確であるため、限られている。この分野のデータ不足を克服するために、我々はCaichong Music Dataset (CaiMD)を発表する。CaiMDはプロの音楽家とアマチュアの両方によって手作業でアノテーションされており、多様な視点と口語的な記述の包括的な理解を提供する。専門家によるアノテーションがあらかじめ設定された既存のデータセットや、固有のバイアスを持つ自動生成されたデータセットとは異なり、CaiMDは、AIが生成した音楽を広くユーザーが望む結果と一致させるという我々の目的に、より十分に対応している。さらに、楽曲制作における人間と機械の効果的なアライメントを可能にするために、MuDiT/MuSiTと呼ばれる革新的なシングルステージフレームワークを提案する。このフレームワークは、口語と聴覚のクロスモーダルな理解を実現するだけでなく、生成された楽曲がユーザが望む結果と一致することを保証する。MuDiT/MuSiTは、メロディ、ハーモニー、リズム、ボーカル、インストゥルメンテーションなどの音楽コンポーネントのエンドツーエンドの生成に1つのDiT/SiTモデルを採用しています。このアプローチにより、生成されたすべての音楽コンポーネント間の調和のとれた音のまとまりが確保され、人間の聴覚的な期待によりよく響くようになります。
要約(オリジナル)
Amid the rising intersection of generative AI and human artistic processes, this study probes the critical yet less-explored terrain of alignment in human-centric automatic song composition. We propose a novel task of Colloquial Description-to-Song Generation, which focuses on aligning the generated content with colloquial human expressions. This task is aimed at bridging the gap between colloquial language understanding and auditory expression within an AI model, with the ultimate goal of creating songs that accurately satisfy human auditory expectations and structurally align with musical norms. Current datasets are limited due to their narrow descriptive scope, semantic gaps and inaccuracies. To overcome data scarcity in this domain, we present the Caichong Music Dataset (CaiMD). CaiMD is manually annotated by both professional musicians and amateurs, offering diverse perspectives and a comprehensive understanding of colloquial descriptions. Unlike existing datasets pre-set with expert annotations or auto-generated ones with inherent biases, CaiMD caters more sufficiently to our purpose of aligning AI-generated music with widespread user-desired results. Moreover, we propose an innovative single-stage framework called MuDiT/MuSiT for enabling effective human-machine alignment in song creation. This framework not only achieves cross-modal comprehension between colloquial language and auditory music perceptions but also ensures generated songs align with user-desired results. MuDiT/MuSiT employs one DiT/SiT model for end-to-end generation of musical components like melody, harmony, rhythm, vocals, and instrumentation. The approach ensures harmonious sonic cohesiveness amongst all generated musical components, facilitating better resonance with human auditory expectations.
arxiv情報
著者 | Zihao Wang,Haoxuan Liu,Jiaxing Yu,Tao Zhang,Yan Liu,Kejun Zhang |
発行日 | 2024-07-03 15:12:36+00:00 |
arxivサイト | arxiv_id(pdf) |