AudioGen: Textually Guided Audio Generation

要約

本研究では、説明的なテキストキャプションを条件とした音声サンプルの生成という問題に取り組む。本研究では、テキスト入力を条件として音声サンプルを生成する自己回帰型生成モデルであるAaudioGenを提案する。AudioGenは学習済みの離散的な音声表現で動作する。テキストから音声を生成するタスクには、複数の課題がある。音声は媒体を伝わるため、「対象物」を区別するのは難しい作業です(例えば、複数の人が同時に話しているのを分離する)。さらに、現実の録音条件(バックグラウンドノイズ、残響など)により、さらに複雑になります。また、テキスト注釈が少ないことも制約となり、モデルのスケーリングに限界があります。最後に、高忠実度のオーディオをモデリングするには、オーディオを高いサンプリングレートでエンコードする必要があり、非常に長いシーケンスになります。このような課題を解決するために、我々は、異なるオーディオサンプルをミックスし、複数のソースを分離することを内部的に学習させるオーグメンテーション技術を提案する。テキストとオーディオのデータポイントが少ないため、異なるタイプのオーディオとテキスト注釈を含む10個のデータセットを作成した。より高速な推論を行うために、マルチストリームモデリングの使用を検討し、ビットレートと知覚品質を維持しながら、より短いシーケンスを使用することを可能にしました。また、分類器を使わないガイダンスを適用し、テキストへの忠実度を向上させます。評価されたベースラインと比較すると、AudioGenは客観的および主観的な指標で優れた結果を出しています。最後に、条件付きおよび無条件でオーディオの継続を生成する提案手法の能力を探ります。サンプル: https://felixkreuk.github.io/audiogen

要約(オリジナル)

We tackle the problem of generating audio samples conditioned on descriptive text captions. In this work, we propose AaudioGen, an auto-regressive generative model that generates audio samples conditioned on text inputs. AudioGen operates on a learnt discrete audio representation. The task of text-to-audio generation poses multiple challenges. Due to the way audio travels through a medium, differentiating “objects” can be a difficult task (e.g., separating multiple people simultaneously speaking). This is further complicated by real-world recording conditions (e.g., background noise, reverberation, etc.). Scarce text annotations impose another constraint, limiting the ability to scale models. Finally, modeling high-fidelity audio requires encoding audio at high sampling rate, leading to extremely long sequences. To alleviate the aforementioned challenges we propose an augmentation technique that mixes different audio samples, driving the model to internally learn to separate multiple sources. We curated 10 datasets containing different types of audio and text annotations to handle the scarcity of text-audio data points. For faster inference, we explore the use of multi-stream modeling, allowing the use of shorter sequences while maintaining a similar bitrate and perceptual quality. We apply classifier-free guidance to improve adherence to text. Comparing to the evaluated baselines, AudioGen outperforms over both objective and subjective metrics. Finally, we explore the ability of the proposed method to generate audio continuation conditionally and unconditionally. Samples: https://felixkreuk.github.io/audiogen

arxiv情報

著者 Felix Kreuk,Gabriel Synnaeve,Adam Polyak,Uriel Singer,Alexandre Défossez,Jade Copet,Devi Parikh,Yaniv Taigman,Yossi Adi
発行日 2023-03-05 09:14:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS パーマリンク