要約
現在の最先端のオーディオ分析システムは、事前にトレーニングされた埋め込みモデルに依存しており、多くの場合、(凍結された) 特徴抽出器として既製のものが使用されます。
一連のタスクに最適なものを選択することは、最近の多くの出版物の主題です。
ただし、これらの作業で見落とされがちな 1 つの側面は、埋め込みを抽出するために考慮されるオーディオ入力の継続時間の影響です。これを時間サポート (TS) と呼びます。
この研究では、さまざまな種類のアーキテクチャと学習パラダイムを表すために選択された、十分に確立されている、または新興の事前トレーニング済み埋め込みに対する TS の影響を研究します。
この評価は、OpenMIC、TAU Urban Acoustic Scenes 2020 Mobile、ESC-50 という楽器と環境音の両方のデータセットを使用して実施されます。
特に、オーディオ スペクトログラム トランスフォーマー ベースのシステム (PaSST および BEAT) は、より小さな TS でも効果を維持できるため、メモリと計算コストを大幅に削減できることを強調します。
さらに、最適な TS を選択することで、すべてのタスクにわたって競争力のある結果が得られることを示します。
特に、微調整を行わずに BEATs と PaSST を使用して、OpenMIC での最先端の結果を向上させます。
要約(オリジナル)
Current state-of-the-art audio analysis systems rely on pre-trained embedding models, often used off-the-shelf as (frozen) feature extractors. Choosing the best one for a set of tasks is the subject of many recent publications. However, one aspect often overlooked in these works is the influence of the duration of audio input considered to extract an embedding, which we refer to as Temporal Support (TS). In this work, we study the influence of the TS for well-established or emerging pre-trained embeddings, chosen to represent different types of architectures and learning paradigms. We conduct this evaluation using both musical instrument and environmental sound datasets, namely OpenMIC, TAU Urban Acoustic Scenes 2020 Mobile, and ESC-50. We especially highlight that Audio Spectrogram Transformer-based systems (PaSST and BEATs) remain effective with smaller TS, which therefore allows for a drastic reduction in memory and computational cost. Moreover, we show that by choosing the optimal TS we reach competitive results across all tasks. In particular, we improve the state-of-the-art results on OpenMIC, using BEATs and PaSST without any fine-tuning.
arxiv情報
著者 | Aurian Quelennec,Michel Olvera,Geoffroy Peeters,Slim Essid |
発行日 | 2023-12-21 16:36:33+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google