A Machine Learning Approach for Denoising and Upsampling HRTFs

要約

現実的な仮想没入型オーディオの需要は成長し続け、ヘッド関連の転送関数(HRTF)が重要な役割を果たしています。
HRTFは、独自の解剖学的特徴を反映し、空間的知覚を高めることを反映して、音が耳に届く方法を捉えています。
パーソナライズされたHRTFはローカリゼーションの精度を改善することが示されていますが、それらの測定には時間がかかり続け、ノイズフリー環境が必要です。
機械学習は、必要な測定ポイントを減らすことが示されていますが、したがって、測定時間を制御する環境が依然として必要です。
このホワイトペーパーでは、まばらでノイズの多いHRTF測定値をアップサンプリングできる新しい手法を提示することにより、この制約に対処する方法を提案します。
提案されたアプローチは、3つの測定ポイントからのアップサンプリングのための除去用のHRTF除去U-NETと自動エンコード生成敵ネットワーク(AE-GAN)を組み合わせています。
提案された方法は、5.41 dBの対数スペクトル歪み(LSD)誤差と0.0070のコサイン類似性損失を達成し、HRTFアップサンプリングにおける方法の有効性を示しています。

要約(オリジナル)

The demand for realistic virtual immersive audio continues to grow, with Head-Related Transfer Functions (HRTFs) playing a key role. HRTFs capture how sound reaches our ears, reflecting unique anatomical features and enhancing spatial perception. It has been shown that personalized HRTFs improve localization accuracy, but their measurement remains time-consuming and requires a noise-free environment. Although machine learning has been shown to reduce the required measurement points and, thus, the measurement time, a controlled environment is still necessary. This paper proposes a method to address this constraint by presenting a novel technique that can upsample sparse, noisy HRTF measurements. The proposed approach combines an HRTF Denoisy U-Net for denoising and an Autoencoding Generative Adversarial Network (AE-GAN) for upsampling from three measurement points. The proposed method achieves a log-spectral distortion (LSD) error of 5.41 dB and a cosine similarity loss of 0.0070, demonstrating the method’s effectiveness in HRTF upsampling.

arxiv情報

著者 Xuyi Hu,Jian Li,Lorenzo Picinali,Aidan O. T. Hogg
発行日 2025-04-24 14:17:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.SD パーマリンク