要約
Contrastive Language-Audio Pretraining (CLAP) は、オーディオおよび音声処理の分野で非常に重要になりました。
その用途は、サウンドイベントの検出からテキストからオーディオへの生成まで多岐にわたります。
ただし、主な制限の 1 つは、トレーニング プロセスに必要な大量のデータと、推論中の全体的な計算の複雑さです。
この論文では、対照的な言語と音声の事前トレーニング済みモデルの複雑さを軽減する方法を調査し、tinyCLAP と呼ばれる効率的なモデルを生成します。
私たちは第一原理から単峰性の蒸留損失を導出し、枝刈りによって共有された多峰性の潜在空間の次元をどのように削減できるかを調査します。
TinyCLAP は、テスト対象となった 3 つのサウンド イベント検出データセット全体で、ゼロショット分類パフォーマンスの最小限の低下 (5% 未満) で、元の Microsoft CLAP パラメーターの 6% のみを使用します。
要約(オリジナル)
Contrastive Language-Audio Pretraining (CLAP) became of crucial importance in the field of audio and speech processing. Its employment ranges from sound event detection to text-to-audio generation. However, one of the main limitations is the considerable amount of data required in the training process and the overall computational complexity during inference. This paper investigates how we can reduce the complexity of contrastive language-audio pre-trained models, yielding an efficient model that we call tinyCLAP. We derive an unimodal distillation loss from first principles and explore how the dimensionality of the shared, multimodal latent space can be reduced via pruning. TinyCLAP uses only 6% of the original Microsoft CLAP parameters with a minimal reduction (less than 5%) in zero-shot classification performance across the three sound event detection datasets on which it was tested
arxiv情報
著者 | Francesco Paissan,Elisabetta Farella |
発行日 | 2023-11-24 14:45:53+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google