From Coarse to Fine: Efficient Training for Audio Spectrogram Transformers

要約

トランスは、オーディオ分類における最近の進歩の中心となっています。
ただし、オーディオ スペクトログラム トランスフォーマーをトレーニングすると、
AST を最初から行うには、リソースと時間がかかる場合があります。
さらに、トランスフォーマーの複雑さは、入力オーディオのスペクトログラムのサイズに大きく依存します。
本研究では、時間軸の解像度と連動させてASTトレーニングの最適化を目指します。
粗いものから細かいものへの独創的なアイデアをトランスフォーマー モデルと結びつけることにより、オーディオ スペクトログラム トランスフォーマーのマルチフェーズ トレーニングを導入します。
これを達成するために、私たちは時間圧縮のための一連の方法を提案します。
これらの方法のいずれかを採用することにより、変圧器モデルは初期段階で低解像度 (粗い) データから学習し、その後のカリキュラム学習戦略で高解像度データで微調整されます。
実験結果は、提案された AST のトレーニング メカニズムが、より高速な収束でパフォーマンスの向上 (または同等の) につながること、つまり必要な計算リソースと時間が短縮されることを示しています。
このアプローチは、学習パラダイムに関係なく、他の AST ベースのメソッドにも一般化できます。

要約(オリジナル)

Transformers have become central to recent advances in audio classification. However, training an audio spectrogram transformer, e.g. AST, from scratch can be resource and time-intensive. Furthermore, the complexity of transformers heavily depends on the input audio spectrogram size. In this work, we aim to optimize AST training by linking to the resolution in the time-axis. We introduce multi-phase training of audio spectrogram transformers by connecting the seminal idea of coarse-to-fine with transformer models. To achieve this, we propose a set of methods for temporal compression. By employing one of these methods, the transformer model learns from lower-resolution (coarse) data in the initial phases, and then is fine-tuned with high-resolution data later in a curriculum learning strategy. Experimental results demonstrate that the proposed training mechanism for AST leads to improved (or on-par) performance with faster convergence, i.e. requiring fewer computational resources and less time. This approach is also generalizable to other AST-based methods regardless of their learning paradigms.

arxiv情報

著者 Jiu Feng,Mehmet Hamza Erol,Joon Son Chung,Arda Senocak
発行日 2024-01-16 14:59:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.SD, eess.AS パーマリンク