Audio-Agent: Leveraging LLMs For Audio Generation, Editing and Composition

要約

テキストやビデオ入力に基づく音声生成、編集、作曲のためのマルチモーダルフレームワークであるAudio-Agentを紹介する。従来のテキスト音声合成(TTA)タスクのアプローチは、テキストの記述からシングルパスで推論を行うことが多い。しかし、この設計では、複雑なテキスト条件が与えられたときに、高品質の音声を生成するのに苦労する。本手法では、事前に訓練されたTTA拡散ネットワークを音声生成エージェントとして利用し、GPT-4と連携して動作させる。GPT-4はテキスト条件をアトミックで具体的な命令に分解し、音声生成エージェントを呼び出す。その結果、Audio-Agentは、提供されたテキストやビデオに忠実な高品質のオーディオを生成し、可変長の生成もサポートします。ビデオ-オーディオ(VTA)タスクの場合、既存のほとんどの手法では、ビデオイベントと生成されたオーディオを同期させるために、タイムスタンプ検出器をトレーニングする必要があり、このプロセスは面倒で時間がかかります。我々は、例えばGemma2-2B-itのような、事前に訓練された大規模言語モデル(LLM)を微調整することで、よりシンプルなアプローチを提案する。このように、我々のフレームワークは、TTAタスクとVTAタスクの両方に対して、学習における計算オーバーヘッドを大幅に発生させることなく、包括的なソリューションを提供する。

要約(オリジナル)

We introduce Audio-Agent, a multimodal framework for audio generation, editing and composition based on text or video inputs. Conventional approaches for text-to-audio (TTA) tasks often make single-pass inferences from text descriptions. While straightforward, this design struggles to produce high-quality audio when given complex text conditions. In our method, we utilize a pre-trained TTA diffusion network as the audio generation agent to work in tandem with GPT-4, which decomposes the text condition into atomic, specific instructions, and calls the agent for audio generation. Consequently, Audio-Agent generates high-quality audio that is closely aligned with the provided text or video while also supporting variable-length generation. For video-to-audio (VTA) tasks, most existing methods require training a timestamp detector to synchronize video events with generated audio, a process that can be tedious and time-consuming. We propose a simpler approach by fine-tuning a pre-trained Large Language Model (LLM), e.g., Gemma2-2B-it, to obtain both semantic and temporal conditions to bridge video and audio modality. Thus our framework provides a comprehensive solution for both TTA and VTA tasks without substantial computational overhead in training.

arxiv情報

著者 Zixuan Wang,Yu-Wing Tai,Chi-Keung Tang
発行日 2024-10-04 11:40:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.LG, cs.SD, eess.AS パーマリンク