Both Ears Wide Open: Towards Language-Driven Spatial Audio Generation

要約

最近、普及モデルはモノチャンネルオーディオ生成において大きな成功を収めています。
ただし、ステレオ オーディオの生成に関しては、サウンドスケープには複数のオブジェクトと方向からなる複雑なシーンが含まれることがよくあります。
空間コンテキストを使用してステレオ オーディオを制御することは、データ コストが高く、生成モデルが不安定であるため、依然として困難です。
私たちの知る限り、この研究はこれらの問題に対処する最初の試みです。
まず、動きのある音源や複数の音源を含む豊富なサウンドスケープと説明を備えた、シミュレーションベースの GPT 支援の大規模データセット BEWO-1M を構築します。
テキスト モダリティを超えて、マルチモーダル生成を進めるため、検索を通じて一連の画像と合理的にペアになったステレオ オーディオも取得しました。
既存のオーディオ生成モデルは、かなりランダムで不明瞭な空間オーディオを生成する傾向があります。
潜在拡散モデルに正確なガイダンスを提供するために、空間認識エンコーダーと方位角状態行列を利用して合理的な空間ガイダンスを明らかにする SpatialSonic モデルを導入します。
空間ガイダンスを活用することで、当社の統合モデルは、テキストと画像から没入型で制御可能な空間オーディオを生成するという目的を達成するだけでなく、推論中のインタラクティブなオーディオ生成も可能にします。
最後に、公正な設定の下で、シミュレートされたデータと現実世界のデータに対して主観的および客観的な評価を実施し、私たちのアプローチを一般的な方法と比較します。
結果は、私たちの方法の有効性を実証し、物理的規則に準拠した空間オーディオを生成する能力を強調しています。

要約(オリジナル)

Recently, diffusion models have achieved great success in mono-channel audio generation. However, when it comes to stereo audio generation, the soundscapes often have a complex scene of multiple objects and directions. Controlling stereo audio with spatial contexts remains challenging due to high data costs and unstable generative models. To the best of our knowledge, this work represents the first attempt to address these issues. We first construct a large-scale, simulation-based, and GPT-assisted dataset, BEWO-1M, with abundant soundscapes and descriptions even including moving and multiple sources. Beyond text modality, we have also acquired a set of images and rationally paired stereo audios through retrieval to advance multimodal generation. Existing audio generation models tend to generate rather random and indistinct spatial audio. To provide accurate guidance for latent diffusion models, we introduce the SpatialSonic model utilizing spatial-aware encoders and azimuth state matrices to reveal reasonable spatial guidance. By leveraging spatial guidance, our unified model not only achieves the objective of generating immersive and controllable spatial audio from text and image but also enables interactive audio generation during inference. Finally, under fair settings, we conduct subjective and objective evaluations on simulated and real-world data to compare our approach with prevailing methods. The results demonstrate the effectiveness of our method, highlighting its capability to generate spatial audio that adheres to physical rules.

arxiv情報

著者 Peiwen Sun,Sitong Cheng,Xiangtai Li,Zhen Ye,Huadai Liu,Honggang Zhang,Wei Xue,Yike Guo
発行日 2024-10-14 16:18:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.SD, eess.AS パーマリンク