Can LLMs ‘Reason’ in Music? An Evaluation of LLMs’ Capability of Music Understanding and Generation

要約

言語に似た記号音楽は、個別の記号でエンコードできます。
最近の研究では、GPT-4 や Llama2 などの大規模言語モデル (LLM) の適用が、理解と生成を含む記号音楽の領域に拡張されました。
しかし、これらの LLM が高度な音楽理解と条件付き生成においてどのように機能するか、特に条件付き、編集可能、インタラクティブな人間とコンピューターの共創プロセスにおいて重要な側面である多段階推論の観点から、詳細を調査した研究はほとんどありません。
この研究では、記号音楽処理における LLM の機能と限界について徹底的に調査しています。
現在の LLM は、曲レベルのマルチステップの音楽推論においてパフォーマンスが低く、通常、複雑な音楽タスクに取り組む際に学習した音楽知識を活用できていないことがわかっています。
LLM の反応を分析すると、LLM の長所と短所が明確に浮き彫りになります。
私たちの調査結果は、高度な音楽能力の達成はLLMによって本質的に得られるものではないことを示唆しており、将来の研究は、ミュージシャンの共創体験を向上させるために、音楽知識と推論の間のギャップを埋めることにもっと焦点を当てる必要があると考えています。

要約(オリジナル)

Symbolic Music, akin to language, can be encoded in discrete symbols. Recent research has extended the application of large language models (LLMs) such as GPT-4 and Llama2 to the symbolic music domain including understanding and generation. Yet scant research explores the details of how these LLMs perform on advanced music understanding and conditioned generation, especially from the multi-step reasoning perspective, which is a critical aspect in the conditioned, editable, and interactive human-computer co-creation process. This study conducts a thorough investigation of LLMs’ capability and limitations in symbolic music processing. We identify that current LLMs exhibit poor performance in song-level multi-step music reasoning, and typically fail to leverage learned music knowledge when addressing complex musical tasks. An analysis of LLMs’ responses highlights distinctly their pros and cons. Our findings suggest achieving advanced musical capability is not intrinsically obtained by LLMs, and future research should focus more on bridging the gap between music knowledge and reasoning, to improve the co-creation experience for musicians.

arxiv情報

著者 Ziya Zhou,Yuhang Wu,Zhiyue Wu,Xinyue Zhang,Ruibin Yuan,Yinghao Ma,Lu Wang,Emmanouil Benetos,Wei Xue,Yike Guo
発行日 2024-07-31 11:29:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.MM, cs.SD, eess.AS パーマリンク