Zero-shot audio captioning with audio-language model guidance and audio context keywords

要約

ゼロショット オーディオ キャプションは、このタスクのための事前トレーニングなしで、オーディオ コンテンツの説明的なテキスト キャプションを自動的に生成することを目的としています。
話し言葉を含む音声コンテンツをテキストに変換する音声認識とは異なり、音声キャプションは通常、環境音、つまり人間が動作を実行することによって生成される音に関係します。
ゼロショット画像キャプション手法にヒントを得て、タスク固有のトレーニングを必要とせずに、そのような一般的な音声信号をテキストキャプションに要約するための新しいフレームワークである ZerAuCap を提案します。
特に、私たちのフレームワークは、事前トレーニングされた大規模言語モデル (LLM) を利用してテキストを生成します。このモデルは、事前トレーニングされた音声言語モデルによってガイドされ、音声コンテンツを説明するキャプションを生成します。
さらに、言語モデルに音声に広く関連するテキストを生成するよう促す音声コンテキスト キーワードを使用します。
私たちが提案したフレームワークは、AudioCaps および Clotho データセットでのゼロショット オーディオ キャプションで最先端の結果を達成します。
私たちのコードは https://github.com/ExplainableML/ZerAuCap で入手できます。

要約(オリジナル)

Zero-shot audio captioning aims at automatically generating descriptive textual captions for audio content without prior training for this task. Different from speech recognition which translates audio content that contains spoken language into text, audio captioning is commonly concerned with ambient sounds, or sounds produced by a human performing an action. Inspired by zero-shot image captioning methods, we propose ZerAuCap, a novel framework for summarising such general audio signals in a text caption without requiring task-specific training. In particular, our framework exploits a pre-trained large language model (LLM) for generating the text which is guided by a pre-trained audio-language model to produce captions that describe the audio content. Additionally, we use audio context keywords that prompt the language model to generate text that is broadly relevant to sounds. Our proposed framework achieves state-of-the-art results in zero-shot audio captioning on the AudioCaps and Clotho datasets. Our code is available at https://github.com/ExplainableML/ZerAuCap.

arxiv情報

著者 Leonard Salewski,Stefan Fauth,A. Sophia Koepke,Zeynep Akata
発行日 2023-11-14 18:55:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS パーマリンク