要約
近年、大規模言語モデル(LLM)や潜在拡散モデル(LDM)などの基盤モデル(FM)が、音楽を含む様々な分野に大きな影響を与えている。この包括的なレビューでは、表現学習、生成学習、マルチモーダル学習にまたがる、音楽における最先端の(SOTA)事前学習モデルと基礎モデルを検証する。まず、様々な産業における音楽の重要性を説明し、音楽におけるAIの進化をたどる。基礎モデルが対象とするモダリティを明確にすることで、FMの開発において音楽表現の多くが未開拓であることを発見する。そして、音楽の理解、生成、医療応用におけるFMの可能性とともに、多様な音楽アプリケーションにおける従来の手法の汎用性の欠如に重点を置く。モデルの事前学習パラダイム、アーキテクチャの選択、トークン化、微調整方法論、制御性の詳細を包括的に探求することで、命令チューニングや文脈内学習、スケーリング則や創発能力、長シーケンスモデリングなど、十分に探求されるべき重要なトピックを強調する。また、音楽エージェントに関する洞察を、事前学習や下流タスクに不可欠なデータセットと評価の徹底的な分析とともに紹介する。最後に、倫理的配慮の重要性を強調することで、音楽のためのFMに関する次の研究は、解釈可能性、透明性、人間の責任、著作権の問題などにもっと焦点を当てるべきだと提唱する。本稿は、音楽領域における人間とAIとのコラボレーションの軌跡を形作ることを目指し、音楽用FMに関する今後の課題と動向についての洞察を提供する。
要約(オリジナル)
In recent years, foundation models (FMs) such as large language models (LLMs) and latent diffusion models (LDMs) have profoundly impacted diverse sectors, including music. This comprehensive review examines state-of-the-art (SOTA) pre-trained models and foundation models in music, spanning from representation learning, generative learning and multimodal learning. We first contextualise the significance of music in various industries and trace the evolution of AI in music. By delineating the modalities targeted by foundation models, we discover many of the music representations are underexplored in FM development. Then, emphasis is placed on the lack of versatility of previous methods on diverse music applications, along with the potential of FMs in music understanding, generation and medical application. By comprehensively exploring the details of the model pre-training paradigm, architectural choices, tokenisation, finetuning methodologies and controllability, we emphasise the important topics that should have been well explored, like instruction tuning and in-context learning, scaling law and emergent ability, as well as long-sequence modelling etc. A dedicated section presents insights into music agents, accompanied by a thorough analysis of datasets and evaluations essential for pre-training and downstream tasks. Finally, by underscoring the vital importance of ethical considerations, we advocate that following research on FM for music should focus more on such issues as interpretability, transparency, human responsibility, and copyright issues. The paper offers insights into future challenges and trends on FMs for music, aiming to shape the trajectory of human-AI collaboration in the music realm.
arxiv情報
著者 | Yinghao Ma,Anders Øland,Anton Ragni,Bleiz MacSen Del Sette,Charalampos Saitis,Chris Donahue,Chenghua Lin,Christos Plachouras,Emmanouil Benetos,Elona Shatri,Fabio Morreale,Ge Zhang,György Fazekas,Gus Xia,Huan Zhang,Ilaria Manco,Jiawen Huang,Julien Guinot,Liwei Lin,Luca Marinelli,Max W. Y. Lam,Megha Sharma,Qiuqiang Kong,Roger B. Dannenberg,Ruibin Yuan,Shangda Wu,Shih-Lun Wu,Shuqi Dai,Shun Lei,Shiyin Kang,Simon Dixon,Wenhu Chen,Wenhao Huang,Xingjian Du,Xingwei Qu,Xu Tan,Yizhi Li,Zeyue Tian,Zhiyong Wu,Zhizheng Wu,Ziyang Ma,Ziyu Wang |
発行日 | 2024-09-03 14:53:34+00:00 |
arxivサイト | arxiv_id(pdf) |