WavJourney: Compositional Audio Creation with Large Language Models

要約

大規模言語モデル (LLM) は、複雑な言語と視覚のタスクに取り組むために、多様なエキスパート モデルを統合する上で大きな可能性を示しています。
人工知能生成コンテンツ (AIGC) の分野を前進させる上での重要性にもかかわらず、インテリジェントなオーディオ コンテンツ作成におけるその可能性はまだ解明されていません。
この作業では、テキストの指示に従って、音声、音楽、効果音を含むストーリーを含むオーディオ コンテンツを作成するという問題に取り組みます。
ここでは、LLM を利用してさまざまなオーディオ モデルを接続し、オーディオ コンテンツを生成するシステムである WavJourney を紹介します。
聴覚シーンのテキストによる説明が与えられると、WavJourney はまず LLM に音声ストーリーテリング専用の構造化されたスクリプトを生成するよう促します。
オーディオ スクリプトには、時空間関係に基づいて編成されたさまざまなオーディオ要素が組み込まれています。
オーディオの概念的な表現として、オーディオ スクリプトは、人間の関与に対するインタラクティブで解釈可能な理論的根拠を提供します。
その後、オーディオ スクリプトはスクリプト コンパイラーに供給され、コンピューター プログラムに変換されます。
プログラムの各行は、タスク固有のオーディオ生成モデルまたは計算操作関数 (連結、ミックスなど) を呼び出します。
次に、コンピュータ プログラムが実行されて、オーディオ生成のための説明可能な解決策が得られます。
SF、教育、ラジオ放送など、さまざまな現実世界のシナリオにわたって WavJourney の実用性を実証します。
WavJourney の説明可能でインタラクティブなデザインは、複数ラウンドの対話における人間と機械の共同制作を促進し、オーディオ制作における創造的な制御と適応性を強化します。
WavJourney は人間の想像力をオーディオ化し、マルチメディア コンテンツ作成における創造性の新たな道を開きます。

要約(オリジナル)

Large Language Models (LLMs) have shown great promise in integrating diverse expert models to tackle intricate language and vision tasks. Despite their significance in advancing the field of Artificial Intelligence Generated Content (AIGC), their potential in intelligent audio content creation remains unexplored. In this work, we tackle the problem of creating audio content with storylines encompassing speech, music, and sound effects, guided by text instructions. We present WavJourney, a system that leverages LLMs to connect various audio models for audio content generation. Given a text description of an auditory scene, WavJourney first prompts LLMs to generate a structured script dedicated to audio storytelling. The audio script incorporates diverse audio elements, organized based on their spatio-temporal relationships. As a conceptual representation of audio, the audio script provides an interactive and interpretable rationale for human engagement. Afterward, the audio script is fed into a script compiler, converting it into a computer program. Each line of the program calls a task-specific audio generation model or computational operation function (e.g., concatenate, mix). The computer program is then executed to obtain an explainable solution for audio generation. We demonstrate the practicality of WavJourney across diverse real-world scenarios, including science fiction, education, and radio play. The explainable and interactive design of WavJourney fosters human-machine co-creation in multi-round dialogues, enhancing creative control and adaptability in audio production. WavJourney audiolizes the human imagination, opening up new avenues for creativity in multimedia content creation.

arxiv情報

著者 Xubo Liu,Zhongkai Zhu,Haohe Liu,Yi Yuan,Meng Cui,Qiushi Huang,Jinhua Liang,Yin Cao,Qiuqiang Kong,Mark D. Plumbley,Wenwu Wang
発行日 2023-07-26 17:54:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.MM, cs.SD, eess.AS パーマリンク