The Effect of Perceptual Metrics on Music Representation Learning for Genre Classification

要約

自然信号の主観的な品質は、客観的な知覚指標で近似できます。
人間の観察者の知覚行動を近似するように設計された知覚メトリクスは、多くの場合、自然信号や神経経路に見られる構造を反映しています。
損失関数として知覚メトリクスを使用してトレーニングされたモデルは、これらのメトリクス内に保持される構造から知覚的に意味のある特徴をキャプチャできます。
知覚損失でトレーニングされたオートエンコーダーから抽出された特徴を使用すると、分類器の学習時にこれらのメトリクスを距離として直接使用するよりも、音楽理解タスク、つまりジャンル分類のパフォーマンスが向上することを実証します。
この結果は、知覚メトリックを表現学習の損失関数として使用する場合に、新しい信号に対する一般化が向上することを示唆しています。

要約(オリジナル)

The subjective quality of natural signals can be approximated with objective perceptual metrics. Designed to approximate the perceptual behaviour of human observers, perceptual metrics often reflect structures found in natural signals and neurological pathways. Models trained with perceptual metrics as loss functions can capture perceptually meaningful features from the structures held within these metrics. We demonstrate that using features extracted from autoencoders trained with perceptual losses can improve performance on music understanding tasks, i.e. genre classification, over using these metrics directly as distances when learning a classifier. This result suggests improved generalisation to novel signals when using perceptual metrics as loss functions for representation learning.

arxiv情報

著者 Tashi Namgyal,Alexander Hepburn,Raul Santos-Rodriguez,Valero Laparra,Jesus Malo
発行日 2024-09-25 16:29:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.SD, eess.AS パーマリンク