AudioX: Diffusion Transformer for Anything-to-Audio Generation

要約

オーディオと音楽の生成は、多くのアプリケーションで重要なタスクとして浮上していますが、既存のアプローチは大きな制限に直面しています。それらは、モダリティ全体で統一された機能なしで単独で動作し、高品質のマルチモーダルトレーニングデータに苦しみ、多様な入力を効果的に統合するのに苦労します。
この作業では、あらゆるものと音楽生成のための統一された拡散トランスモデルであるAudioxを提案します。
以前のドメイン固有のモデルとは異なり、Audioxは一般的なオーディオと音楽の両方を高品質の音楽と生成でき、テキスト、ビデオ、画像、音楽、オーディオなどのさまざまなモダリティの柔軟な自然言語制御とシームレスな処理を提供します。
その重要な革新は、モダリティ全体の入力をマスクし、マスクされた入力からモデルを学習させ、堅牢で統一されたクロスモーダル表現を生み出すマルチモーダルマスクトレーニング戦略です。
データ不足に対処するために、VGGSoundデータセットに基づいた190Kオーディオキャプションを備えたVggSound-Capsと、V2Mデータセットから派生した600万の音楽キャプションを備えたV2Mキャップの2つの包括的なデータセットをキュレートします。
広範な実験は、オーディオックスが最先端の専門モデルに一致またはパフォーマンスするだけでなく、統一されたアーキテクチャ内の多様な入力モダリティと生成タスクの処理において顕著な汎用性を提供することを示しています。
コードとデータセットはhttps://zeyuet.github.io/audiox/で入手できます

要約(オリジナル)

Audio and music generation have emerged as crucial tasks in many applications, yet existing approaches face significant limitations: they operate in isolation without unified capabilities across modalities, suffer from scarce high-quality, multi-modal training data, and struggle to effectively integrate diverse inputs. In this work, we propose AudioX, a unified Diffusion Transformer model for Anything-to-Audio and Music Generation. Unlike previous domain-specific models, AudioX can generate both general audio and music with high quality, while offering flexible natural language control and seamless processing of various modalities including text, video, image, music, and audio. Its key innovation is a multi-modal masked training strategy that masks inputs across modalities and forces the model to learn from masked inputs, yielding robust and unified cross-modal representations. To address data scarcity, we curate two comprehensive datasets: vggsound-caps with 190K audio captions based on the VGGSound dataset, and V2M-caps with 6 million music captions derived from the V2M dataset. Extensive experiments demonstrate that AudioX not only matches or outperforms state-of-the-art specialized models, but also offers remarkable versatility in handling diverse input modalities and generation tasks within a unified architecture. The code and datasets will be available at https://zeyuet.github.io/AudioX/

arxiv情報

著者 Zeyue Tian,Yizhu Jin,Zhaoyang Liu,Ruibin Yuan,Xu Tan,Qifeng Chen,Wei Xue,Yike Guo
発行日 2025-03-13 16:30:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.MM, cs.SD, eess.AS パーマリンク