BAST: Binaural Audio Spectrogram Transformer for Binaural Sound Localization

要約

残響環境における正確な音の定位は、人間の聴覚にとって不可欠です。
最近、畳み込みニューラル ネットワーク (CNN) が人間のバイノーラル聴覚経路をモデル化するために利用されています。
ただし、CNN では、グローバルな音響特徴を捕捉する際に障壁があることが示されています。
この問題に対処するために、無響環境と残響環境の両方で音の方位を予測するための新しいエンドツーエンドのバイノーラル オーディオ スペクトログラム トランスフォーマー (BAST) モデルを提案します。
2 つの実装モード、つまり、それぞれ共有パラメータと非共有パラメータを持つ BAST モデルに対応する BAST-SP と BAST-NSP について検討します。
減算式両耳統合とハイブリッド損失を備えたモデルは、すべての方位角で 1.29 度の角距離と 1e-3 の平均二乗誤差を達成し、CNN ベースのモデルを大幅に上回りました。
左右の半音場および無響音および残響環境における BAST のパフォーマンスの探索的分析により、音の定位におけるバイノーラル トランスフォーマーの実現可能性だけでなく、その一般化能力も示されています。
さらに、アテンション マップの分析は、自然の残響環境における定位プロセスの解釈に関する追加の洞察を提供するために提供されます。

要約(オリジナル)

Accurate sound localization in a reverberation environment is essential for human auditory perception. Recently, Convolutional Neural Networks (CNNs) have been utilized to model the binaural human auditory pathway. However, CNN shows barriers in capturing the global acoustic features. To address this issue, we propose a novel end-to-end Binaural Audio Spectrogram Transformer (BAST) model to predict the sound azimuth in both anechoic and reverberation environments. Two modes of implementation, i.e. BAST-SP and BAST-NSP corresponding to BAST model with shared and non-shared parameters respectively, are explored. Our model with subtraction interaural integration and hybrid loss achieves an angular distance of 1.29 degrees and a Mean Square Error of 1e-3 at all azimuths, significantly surpassing CNN based model. The exploratory analysis of the BAST’s performance on the left-right hemifields and anechoic and reverberation environments shows its generalization ability as well as the feasibility of binaural Transformers in sound localization. Furthermore, the analysis of the attention maps is provided to give additional insights on the interpretation of the localization process in a natural reverberant environment.

arxiv情報

著者 Sheng Kuang,Jie Shi,Kiki van der Heijden,Siamak Mehrkanoon
発行日 2024-08-07 13:15:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.SD, eess.AS, I.2 パーマリンク