Killing two birds with one stone: Can an audio captioning system also be used for audio-text retrieval?

要約

自動音声キャプション (AAC) は、テキスト文を使用して音声録音を説明できるシステムを開発することを目的としています。
対照的に、オーディオ テキスト検索 (ATR) システムは、特定のテキスト クエリ (テキストからオーディオへ) またはその逆 (オーディオからテキストへ) に最もよく一致するオーディオ録音を見つけようとします。
これらのタスクには、さまざまなタイプのシステムが必要です。AAC はシーケンス間モデルを採用するのに対し、ATR は共有投影サブスペース内でオーディオとテキストの表現を比較するランキング モデルを利用します。
ただし、この研究では、新しいタスクに合わせて微調整することなく、未変更の AAC システムの ATR 機能を調査することで、AAC と ATR の関係を調査しています。
当社の AAC システムは、オーディオのタグ付けのために AudioSet でトレーニングされたオーディオ エンコーダー (ConvNeXt-Tiny) と、文の生成を担当するトランス デコーダーで構成されています。
AAC では、平均で Croto で 0.298、AudioCaps で 0.472 という高い SPIDEr-FL スコアを達成しています。
ATR の場合、オーディオ/キャプションのペアに対して取得された標準のクロスエントロピー損失値を使用することを提案します。
Clotho および AudioCaps データセットの実験結果は、この単純なアプローチを使用した適切な再現値を示しています。
たとえば、Au-dioCaps では Text-to-Audio R@1 値 0.382 が得られました。これは、外部データを使用しない現在の最先端の方法を上回っています。
興味深いことに、音声からテキストへの取得には損失値の正規化が必要であることが分かりました。

要約(オリジナル)

Automated Audio Captioning (AAC) aims to develop systems capable of describing an audio recording using a textual sentence. In contrast, Audio-Text Retrieval (ATR) systems seek to find the best matching audio recording(s) for a given textual query (Text-to-Audio) or vice versa (Audio-to-Text). These tasks require different types of systems: AAC employs a sequence-to-sequence model, while ATR utilizes a ranking model that compares audio and text representations within a shared projection subspace. However, this work investigates the relationship between AAC and ATR by exploring the ATR capabilities of an unmodified AAC system, without fine-tuning for the new task. Our AAC system consists of an audio encoder (ConvNeXt-Tiny) trained on AudioSet for audio tagging, and a transformer decoder responsible for generating sentences. For AAC, it achieves a high SPIDEr-FL score of 0.298 on Clotho and 0.472 on AudioCaps on average. For ATR, we propose using the standard Cross-Entropy loss values obtained for any audio/caption pair. Experimental results on the Clotho and AudioCaps datasets demonstrate decent recall values using this simple approach. For instance, we obtained a Text-to-Audio R@1 value of 0.382 for Au-dioCaps, which is above the current state-of-the-art method without external data. Interestingly, we observe that normalizing the loss values was necessary for Audio-to-Text retrieval.

arxiv情報

著者 Etienne Labbé,Thomas Pellegrini,Julien Pinquier
発行日 2023-08-29 07:53:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR, cs.SD, eess.AS パーマリンク