要約
周波数によって変化する音響パラメータを推定することは、現実的な空間オーディオ作成における没入感を高めるために不可欠です。
この論文では、一次アンビソニックス (FOA) 音声録音を入力として使用し、10 の周波数帯域にわたって残響時間 (T60)、直接残響比 (DRR)、および明瞭度 (C50) を盲目的に推定する統一フレームワークを提案します。
提案されたフレームワークは、スペクトル空間共分散ベクトル (SSCV) と呼ばれる新しい機能を利用し、FOA 信号の時間情報、スペクトル情報、空間情報を効率的に表現します。
私たちのモデルは、スペクトル情報のみを使用する既存の単一チャネル手法よりも大幅に優れた性能を発揮し、3 つの音響パラメーターすべてについて推定誤差を半分以下に削減します。
さらに、3D 畳み込みエンコーダーで SSCV 機能を効果的に活用するための新しいバックエンド ネットワークである FOA-Conv3D も紹介します。
FOA-Conv3D は、畳み込みニューラル ネットワーク (CNN) および再帰型畳み込みニューラル ネットワーク (CRNN) バックエンドよりも優れたパフォーマンスを発揮し、推定誤差を低く抑え、3 つの音響パラメーターすべてについてより高い分散割合 (PoV) を考慮します。
要約(オリジナル)
Estimating frequency-varying acoustic parameters is essential for enhancing immersive perception in realistic spatial audio creation. In this paper, we propose a unified framework that blindly estimates reverberation time (T60), direct-to-reverberant ratio (DRR), and clarity (C50) across 10 frequency bands using first-order Ambisonics (FOA) speech recordings as inputs. The proposed framework utilizes a novel feature named Spectro-Spatial Covariance Vector (SSCV), efficiently representing temporal, spectral as well as spatial information of the FOA signal. Our models significantly outperform existing single-channel methods with only spectral information, reducing estimation errors by more than half for all three acoustic parameters. Additionally, we introduce FOA-Conv3D, a novel back-end network for effectively utilising the SSCV feature with a 3D convolutional encoder. FOA-Conv3D outperforms the convolutional neural network (CNN) and recurrent convolutional neural network (CRNN) backends, achieving lower estimation errors and accounting for a higher proportion of variance (PoV) for all 3 acoustic parameters.
arxiv情報
著者 | Hanyu Meng,Jeroen Breebaart,Jeremy Stoddard,Vidhyasaharan Sethu,Eliathamby Ambikairajah |
発行日 | 2024-11-05 15:20:23+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google