要約
知覚メトリクスは伝統的に、画像や音声などの自然信号の品質を評価するために使用されてきました。
これらは人間の観察者の知覚動作を模倣するように設計されており、通常は自然信号に見られる構造を反映しています。
これにより、モデルがメトリクスに保持されている構造を捕捉することを学習するように、生成モデルをトレーニングするための損失関数としての使用が動機付けられます。
私たちは、圧縮オートエンコーダーをトレーニングして自然データの代わりに均一なノイズを再構築することで、このアイデアをオーディオ領域で極限まで活用します。
知覚損失を使用したトレーニングにより、標準のユークリッド損失を使用してトレーニングされたモデルと比較して、テスト時のスペクトログラムと再合成されたオーディオの再構成が向上することを示します。
これは、知覚メトリクスを使用する場合に、目に見えない自然信号をより適切に一般化できることを示しています。
要約(オリジナル)
Perceptual metrics are traditionally used to evaluate the quality of natural signals, such as images and audio. They are designed to mimic the perceptual behaviour of human observers and usually reflect structures found in natural signals. This motivates their use as loss functions for training generative models such that models will learn to capture the structure held in the metric. We take this idea to the extreme in the audio domain by training a compressive autoencoder to reconstruct uniform noise, in lieu of natural data. We show that training with perceptual losses improves the reconstruction of spectrograms and re-synthesized audio at test time over models trained with a standard Euclidean loss. This demonstrates better generalisation to unseen natural signals when using perceptual metrics.
arxiv情報
| 著者 | Tashi Namgyal,Alexander Hepburn,Raul Santos-Rodriguez,Valero Laparra,Jesus Malo | 
| 発行日 | 2023-12-06 12:27:25+00:00 | 
| arxivサイト | arxiv_id(pdf) | 
提供元, 利用サービス
arxiv.jp, Google
