HAAQI-Net: A Non-intrusive Neural Music Audio Quality Assessment Model for Hearing Aids

要約

この文書では、補聴器ユーザー向けに調整された音楽音質評価のための非侵入型ディープラーニング モデルである HAAQI-Net を紹介します。
基準信号との煩雑な比較に依存する補聴器音声品質指数 (HAAQI) のような従来の方法とは異なり、HAAQI-Net は、よりアクセスしやすく効率的な代替手段を提供します。
HAAQI-Net は、事前トレーニングされた BEATs モデルのアテンション メカニズムと機能を備えた双方向 Long Short-Term Memory (BLSTM) アーキテクチャを使用して、音楽オーディオ クリップと難聴パターンから HAAQI スコアを直接予測します。
結果は、HAAQI-Net の有効性を示しており、予測スコアは 0.9368 の線形相関係数 (LCC)、0.9486 のスピアマン順位相関係数 (SRCC)、および 0.0064 の平均二乗誤差 (MSE) を達成し、推論時間を 62.52 秒から
2.54秒。
大規模な BEAT モデルによる特徴抽出は効果的ではありますが、計算オーバーヘッドが発生します。
これに対処するために、知識蒸留戦略によって生徒の BEATs モデルが作成され、HAAQI-Net トレーニング中に教師の BEATs モデルから情報が蒸留され、必要なパラメーターが削減されます。
蒸留された HAAQI-Net は、LCC 0.9071、SRCC 0.9307、MSE 0.0091 という優れたパフォーマンスを維持しながら、パラメーターを 75.85%、推論時間を 96.46% 削減します。
この削減により、HAAQI-Net の効率と拡張性が強化され、補聴器設定における実際の音楽の音質評価に実行可能になります。
この研究はまた、特定のアプリケーション向けに深層学習モデルを最適化するためのさらなる研究への道を開き、補聴器技術の実用的なアプリケーション向けの効率的で正確なモデルの開発に関する洞察を提供することで、音声信号処理と品質評価に貢献します。

要約(オリジナル)

This paper introduces HAAQI-Net, a non-intrusive deep learning model for music audio quality assessment tailored for hearing aid users. Unlike traditional methods like the Hearing Aid Audio Quality Index (HAAQI), which rely on intrusive comparisons to a reference signal, HAAQI-Net offers a more accessible and efficient alternative. Using a bidirectional Long Short-Term Memory (BLSTM) architecture with attention mechanisms and features from the pre-trained BEATs model, HAAQI-Net predicts HAAQI scores directly from music audio clips and hearing loss patterns. Results show HAAQI-Net’s effectiveness, with predicted scores achieving a Linear Correlation Coefficient (LCC) of 0.9368, a Spearman’s Rank Correlation Coefficient (SRCC) of 0.9486, and a Mean Squared Error (MSE) of 0.0064, reducing inference time from 62.52 seconds to 2.54 seconds. Although effective, feature extraction via the large BEATs model incurs computational overhead. To address this, a knowledge distillation strategy creates a student distillBEATs model, distilling information from the teacher BEATs model during HAAQI-Net training, reducing required parameters. The distilled HAAQI-Net maintains strong performance with an LCC of 0.9071, an SRCC of 0.9307, and an MSE of 0.0091, while reducing parameters by 75.85% and inference time by 96.46%. This reduction enhances HAAQI-Net’s efficiency and scalability, making it viable for real-world music audio quality assessment in hearing aid settings. This work also opens avenues for further research into optimizing deep learning models for specific applications, contributing to audio signal processing and quality assessment by providing insights into developing efficient and accurate models for practical applications in hearing aid technology.

arxiv情報

著者 Dyah A. M. G. Wisnu,Stefano Rini,Ryandhimas E. Zezario,Hsin-Min Wang,Yu Tsao
発行日 2024-06-05 16:17:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.SD, eess.AS パーマリンク