要約
この文書では、補聴器ユーザーに合わせた音楽品質評価のための非侵入型ディープラーニング モデルである HAAQI-Net を紹介します。
補聴器オーディオ品質指数 (HAAQI) のような従来の方法とは対照的に、HAAQI-Net は双方向長短期メモリ (BLSTM) を注意深く利用します。
評価された音楽サンプルと難聴パターンを入力として受け取り、予測 HAAQI スコアを生成します。
このモデルは、音響特徴抽出のために Audio Transformers (BEAT) からの事前トレーニングされた双方向エンコーダー表現を採用しています。
予測スコアをグラウンド トゥルースと比較すると、HAAQI-Net は、縦方向一致相関 (LCC) が 0.9257、スピアマンの順位相関係数 (SRCC) が 0.9394、平均二乗誤差 (MSE) が 0.0080 を達成しました。
特に、この高性能により推論時間が 62.52 秒 (HAAQI による) から 2.71 秒 (HAAQI-Net による) に大幅に短縮され、補聴器ユーザーにとって効率的な音楽品質評価モデルとして機能します。
要約(オリジナル)
This paper introduces HAAQI-Net, a non-intrusive deep learning model for music quality assessment tailored to hearing aid users. In contrast to traditional methods like the Hearing Aid Audio Quality Index (HAAQI), HAAQI-Net utilizes a Bidirectional Long Short-Term Memory (BLSTM) with attention. It takes an assessed music sample and a hearing loss pattern as input, generating a predicted HAAQI score. The model employs the pre-trained Bidirectional Encoder representation from Audio Transformers (BEATs) for acoustic feature extraction. Comparing predicted scores with ground truth, HAAQI-Net achieves a Longitudinal Concordance Correlation (LCC) of 0.9257, Spearman’s Rank Correlation Coefficient (SRCC) of 0.9394, and Mean Squared Error (MSE) of 0.0080. Notably, this high performance comes with a substantial reduction in inference time: from 62.52 seconds (by HAAQI) to 2.71 seconds (by HAAQI-Net), serving as an efficient music quality assessment model for hearing aid users.
arxiv情報
著者 | Dyah A. M. G. Wisnu,Epri Pratiwi,Stefano Rini,Ryandhimas E. Zezario,Hsin-Min Wang,Yu Tsao |
発行日 | 2024-01-02 10:55:01+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google