MusicAgent: An AI Agent for Music Understanding and Generation with Large Language Models

要約

AI を活用した音楽処理は、生成タスク (音色合成など) から理解タスク (音楽分類など) に至るまで、数十のタスクを含む多様な分野です。
開発者やアマチュアにとって、特に音楽データの表現とさまざまなタスク間のプラットフォーム間でのモデルの適用性が大きく異なることを考慮すると、音楽処理の要件を満たすためにこれらのタスクをすべて把握することは非常に困難です。
したがって、これらのタスクを整理および統合して、実務者が要求を自動的に分析し、要件を満たすためのソリューションとして適切なツールを呼び出すことができるようにするシステムを構築する必要があります。
タスク自動化における大規模言語モデル (LLM) の最近の成功に触発され、私たちは MusicAgent という名前のシステムを開発しました。このシステムは、多数の音楽関連ツールと自律型ワークフローを統合してユーザーの要件に対応します。
より具体的には、1) Hugging Face、GitHub、Web API などを含むさまざまなソースからツールを収集するツールセットを構築します。2) これらのツールを整理し、ユーザー リクエストを自動的に分解するための LLM (ChatGPT など) によって強化された自律型ワークフローを構築します。
複数のサブタスクを実行し、対応する音楽ツールを呼び出します。
このシステムの主な目的は、ユーザーを AI 音楽ツールの複雑さから解放し、クリエイティブな側面に集中できるようにすることです。
ユーザーがツールを自由に組み合わせられるようにすることで、このシステムはシームレスで豊かな音楽体験を提供します。

要約(オリジナル)

AI-empowered music processing is a diverse field that encompasses dozens of tasks, ranging from generation tasks (e.g., timbre synthesis) to comprehension tasks (e.g., music classification). For developers and amateurs, it is very difficult to grasp all of these task to satisfy their requirements in music processing, especially considering the huge differences in the representations of music data and the model applicability across platforms among various tasks. Consequently, it is necessary to build a system to organize and integrate these tasks, and thus help practitioners to automatically analyze their demand and call suitable tools as solutions to fulfill their requirements. Inspired by the recent success of large language models (LLMs) in task automation, we develop a system, named MusicAgent, which integrates numerous music-related tools and an autonomous workflow to address user requirements. More specifically, we build 1) toolset that collects tools from diverse sources, including Hugging Face, GitHub, and Web API, etc. 2) an autonomous workflow empowered by LLMs (e.g., ChatGPT) to organize these tools and automatically decompose user requests into multiple sub-tasks and invoke corresponding music tools. The primary goal of this system is to free users from the intricacies of AI-music tools, enabling them to concentrate on the creative aspect. By granting users the freedom to effortlessly combine tools, the system offers a seamless and enriching music experience.

arxiv情報

著者 Dingyao Yu,Kaitao Song,Peiling Lu,Tianyu He,Xu Tan,Wei Ye,Shikun Zhang,Jiang Bian
発行日 2023-10-18 13:31:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.MM, eess.AS パーマリンク