要約
改善された音声強調モデルを取得するために、研究者は多くの場合、特定の計測基準に従ってパフォーマンスを向上させることに焦点を当てます。
ただし、モデルを最適化するために損失関数で同じメトリックが使用される場合、特定のメトリックでは認識されない側面に悪影響を及ぼす可能性があります。
このペーパーの目的は、音声強調モデルを評価に使用されるメトリックに過剰適合させるリスクを説明することです。
このために、広く使用されている PESQ 尺度を利用する拡張モデルを導入します。
私たちの「PESQetarian」モデルは、VB-DMD で 3.82 PESQ を達成しましたが、リスニング実験では非常に悪いスコアでした。
得られた PESQ 値 3.82 は、VB-DMD ベンチマークでの「最先端の」PESQ パフォーマンスを意味しますが、この例では、全体的に最適化すると、
単一のメトリクス、同じメトリクスに対する個別の評価は誤解を招く可能性があります。
代わりに、他の指標を評価に含める必要があり、その結果のパフォーマンス予測はリスニングによって確認する必要があります。
要約(オリジナル)
To obtain improved speech enhancement models, researchers often focus on increasing performance according to specific instrumental metrics. However, when the same metric is used in a loss function to optimize models, it may be detrimental to aspects that the given metric does not see. The goal of this paper is to illustrate the risk of overfitting a speech enhancement model to the metric used for evaluation. For this, we introduce enhancement models that exploit the widely used PESQ measure. Our ‘PESQetarian’ model achieves 3.82 PESQ on VB-DMD while scoring very poorly in a listening experiment. While the obtained PESQ value of 3.82 would imply ‘state-of-the-art’ PESQ-performance on the VB-DMD benchmark, our examples show that when optimizing w.r.t. a metric, an isolated evaluation on the same metric may be misleading. Instead, other metrics should be included in the evaluation and the resulting performance predictions should be confirmed by listening.
arxiv情報
| 著者 | Danilo de Oliveira,Simon Welker,Julius Richter,Timo Gerkmann |
| 発行日 | 2024-06-05 17:07:39+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google