A-JEPA: Joint-Embedding Predictive Architecture Can Listen

要約

この論文では、大規模な基礎ビジョン モデルの成功を推進するマスク モデリングの原理が、潜在空間で予測を行うことによってオーディオに効果的に適用できることを示します。
オーディオスペクトルからの自己教師あり学習のためのシンプルな拡張手法である、オーディオベースのジョイント埋め込み予測アーキテクチャ (A-JEPA) を紹介します。
I-JEPA の設計に従って、A-JEPA はコンテキスト エンコーダーを介したカリキュラム マスキング戦略で可視オーディオ スペクトログラム パッチをエンコードし、適切に設計された場所でサンプリングされた領域の表現を予測します。
これらの領域のターゲット表現は、スペクトログラム全体に対するコンテキスト エンコーダ \emph{i.e.} (ターゲット エンコーダ) の指数移動平均によって抽出されます。
オーディオ スペクトログラムにおけるローカル時間と周波数の相関性が高いものの複雑さを考慮すると、カリキュラムに沿ってランダム ブロック マスキングを時間と周波数を意識したマスキングに移行することが有益であることがわかりました。
文脈上の意味の理解と堅牢性を強化するために、入力のドロップやゼロの代わりに、ターゲット データセットの正規化されたマスキングを使用してエンコーダーを微調整します。
経験的に、Vision Transformers 構造を使用して構築された場合、A-JEPA は拡張性が高く、複数の音声および音声分類タスクで最先端のパフォーマンスを確立し、外部で監視された事前トレーニングを使用する他の最近のモデルを上回るパフォーマンスを発揮することがわかりました。

要約(オリジナル)

This paper presents that the masked-modeling principle driving the success of large foundational vision models can be effectively applied to audio by making predictions in a latent space. We introduce Audio-based Joint-Embedding Predictive Architecture (A-JEPA), a simple extension method for self-supervised learning from the audio spectrum. Following the design of I-JEPA, our A-JEPA encodes visible audio spectrogram patches with a curriculum masking strategy via context encoder, and predicts the representations of regions sampled at well-designed locations. The target representations of those regions are extracted by the exponential moving average of context encoder, \emph{i.e.}, target encoder, on the whole spectrogram. We find it beneficial to transfer random block masking into time-frequency aware masking in a curriculum manner, considering the complexity of highly correlated in local time and frequency in audio spectrograms. To enhance contextual semantic understanding and robustness, we fine-tune the encoder with a regularized masking on target datasets, instead of input dropping or zero. Empirically, when built with Vision Transformers structure, we find A-JEPA to be highly scalable and sets new state-of-the-art performance on multiple audio and speech classification tasks, outperforming other recent models that use externally supervised pre-training.

arxiv情報

著者 Zhengcong Fei,Mingyuan Fan,Junshi Huang
発行日 2024-01-11 13:16:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.SD, eess.AS パーマリンク