HRTF upsampling with a generative adversarial network using a gnomonic equiangular projection

要約

個別化された頭部伝達関数 (HRTF) は、現実的な仮想現実 (VR) および拡張現実 (AR) 環境を作成するために不可欠です。
ただし、高品質の HRTF を音響的に測定するには、高価な機器と音響実験室の設定が必要です。
これらの制限を克服し、この測定をより効率的にするために、これまでは、低解像度の HRTF から高解像度の HRTF が作成される HRTF アップサンプリングが利用されてきました。
このペーパーでは、敵対的生成ネットワーク (GAN) を HRTF アップサンプリングにどのように適用できるかを示します。
畳み込み超解像度敵対的生成ネットワーク (SRGAN) で使いやすいように HRTF データを変換する新しいアプローチを提案します。
この新しいアプローチは、重心アップサンプリングと HRTF 選択アプローチという 2 つのベースラインに対してベンチマークされます。
実験結果は、入力 HRTF がスパースである場合、提案された方法が対数スペクトル歪み (LSD) と知覚モデルを使用した定位パフォーマンスの点で両方のベースラインを上回ることを示しています。

要約(オリジナル)

An individualised head-related transfer function (HRTF) is essential for creating realistic virtual reality (VR) and augmented reality (AR) environments. However, acoustically measuring high-quality HRTFs requires expensive equipment and an acoustic lab setting. To overcome these limitations and to make this measurement more efficient HRTF upsampling has been exploited in the past where a high-resolution HRTF is created from a low-resolution one. This paper demonstrates how generative adversarial networks (GANs) can be applied to HRTF upsampling. We propose a novel approach that transforms the HRTF data for convenient use with a convolutional super-resolution generative adversarial network (SRGAN). This new approach is benchmarked against two baselines: barycentric upsampling and a HRTF selection approach. Experimental results show that the proposed method outperforms both baselines in terms of log-spectral distortion (LSD) and localisation performance using perceptual models when the input HRTF is sparse.

arxiv情報

著者 Aidan O. T. Hogg,Mads Jenkins,He Liu,Isaac Squires,Samuel J. Cooper,Lorenzo Picinali
発行日 2023-06-09 11:05:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.HC, cs.LG, cs.SD, eess.AS, eess.SP パーマリンク