要約
この論文は、自己教師ありの汎用音声表現学習の問題に取り組みます。
このタスクでは、Joint-Embedding Predictive Architectures (JEPA) の使用を検討します。これは、入力メル スペクトログラムを 2 つの部分 (コンテキストとターゲット) に分割し、それぞれのニューラル表現を計算し、ターゲットを予測するためにニューラル ネットワークをトレーニングすることで構成されます。
コンテキスト表現からの表現。
私たちはこのフレームワーク内でいくつかの設計上の選択肢を調査し、環境音、音声、音楽の下流タスクなどのさまざまな音声分類ベンチマークでモデルを評価する広範な実験を通じてその影響を研究します。
私たちは入力データのどの部分がコンテキストまたはターゲットとして使用されるかに特に焦点を当て、それがモデルの品質に大きな影響を与えることを実験的に示します。
特に、画像領域で効果的な設計を選択すると、オーディオのパフォーマンスが低下することがわかり、これら 2 つのモダリティの大きな違いが浮き彫りになります。
要約(オリジナル)
This paper addresses the problem of self-supervised general-purpose audio representation learning. We explore the use of Joint-Embedding Predictive Architectures (JEPA) for this task, which consists of splitting an input mel-spectrogram into two parts (context and target), computing neural representations for each, and training the neural network to predict the target representations from the context representations. We investigate several design choices within this framework and study their influence through extensive experiments by evaluating our models on various audio classification benchmarks, including environmental sounds, speech and music downstream tasks. We focus notably on which part of the input data is used as context or target and show experimentally that it significantly impacts the model’s quality. In particular, we notice that some effective design choices in the image domain lead to poor performance on audio, thus highlighting major differences between these two modalities.
arxiv情報
著者 | Alain Riou,Stefan Lattner,Gaëtan Hadjeres,Geoffroy Peeters |
発行日 | 2024-05-14 15:00:09+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google