What You Hear Is What You See: Audio Quality Metrics From Image Quality Metrics

要約

この研究では、オーディオ信号をスペクトログラムとして表すことにより、オーディオ信号を評価するための最先端の画像知覚メトリクスの利用の実現可能性を調査します。
提案されたアプローチの有望な結果は、聴覚経路と視覚経路の神経機構の類似性に基づいています。
さらに、音響信号の特殊性を考慮して、音響心理学的に妥当なアーキテクチャを持つメトリクスの 1 つをカスタマイズします。
私たちは、音楽データセットを使用して、提案した指標といくつかのベースライン指標の有効性を評価しました。指標と人間の評価者によって評価されたオーディオの知覚品質との相関関係に関して有望な結果が得られました。

要約(オリジナル)

In this study, we investigate the feasibility of utilizing state-of-the-art image perceptual metrics for evaluating audio signals by representing them as spectrograms. The encouraging outcome of the proposed approach is based on the similarity between the neural mechanisms in the auditory and visual pathways. Furthermore, we customise one of the metrics which has a psychoacoustically plausible architecture to account for the peculiarities of sound signals. We evaluate the effectiveness of our proposed metric and several baseline metrics using a music dataset, with promising results in terms of the correlation between the metrics and the perceived quality of audio as rated by human evaluators.

arxiv情報

著者 Tashi Namgyal,Alexander Hepburn,Raul Santos-Rodriguez,Valero Laparra,Jesus Malo
発行日 2023-08-30 16:06:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.SD, eess.AS パーマリンク