Weakly-supervised Automated Audio Captioning via text only training

要約

近年、オーディオとキャプションのペアのデータセットにより、オーディオ クリップの説明の自動生成、つまり自動オーディオ キャプション (AAC) が目覚ましい成功を収めてきました。
ただし、十分な数の音声とキャプションのペアを収集するには、多大な労力と時間がかかります。
Contrastive Language-Audio Pretraining (CLAP) の最近の進歩を動機として、テキスト データと事前トレーニングされた CLAP モデルのみを想定して AAC モデルをトレーニングする弱教師ありアプローチを提案し、ペアになったターゲット データの必要性を軽減します。
私たちのアプローチは、CLAP のオーディオとテキストの埋め込み間の類似性を活用しています。
トレーニング中に、CLAP テキスト埋め込みからテキストを再構築する方法を学習し、推論中に、オーディオ埋め込みを使用してデコードします。
オーディオとテキストの埋め込み間のモダリティのギャップを軽減するために、トレーニングと推論の段階でギャップを埋める戦略を採用します。
私たちは、Clotho および AudioCaps データセットで提案された手法を評価し、ペアのターゲット データでトレーニングされた完全教師ありアプローチと比較して、最大 ~$83\%$ の相対パフォーマンスを達成する能力を実証しました。

要約(オリジナル)

In recent years, datasets of paired audio and captions have enabled remarkable success in automatically generating descriptions for audio clips, namely Automated Audio Captioning (AAC). However, it is labor-intensive and time-consuming to collect a sufficient number of paired audio and captions. Motivated by the recent advances in Contrastive Language-Audio Pretraining (CLAP), we propose a weakly-supervised approach to train an AAC model assuming only text data and a pre-trained CLAP model, alleviating the need for paired target data. Our approach leverages the similarity between audio and text embeddings in CLAP. During training, we learn to reconstruct the text from the CLAP text embedding, and during inference, we decode using the audio embeddings. To mitigate the modality gap between the audio and text embeddings we employ strategies to bridge the gap during training and inference stages. We evaluate our proposed method on Clotho and AudioCaps datasets demonstrating its ability to achieve a relative performance of up to ~$83\%$ compared to fully supervised approaches trained with paired target data.

arxiv情報

著者 Theodoros Kouzelis,Vassilis Katsouros
発行日 2023-09-21 16:40:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.SD, eess.AS パーマリンク