要約
音声キャプションのタスクは、画像やビデオのキャプションなどのタスクと本質的に似ています。
しかし、それはあまり注目されていません。
我々は、音声キャプションに対する 3 つの要望を提案します。(i) 生成されたテキストの流暢さ、(ii) 生成されたテキストの入力音声に対する忠実さ、およびある程度の関連性 (iii) 知覚できる品質である可聴性です。
音声のみに基づいています。
私たちの方法はゼロショット方法です。つまり、キャプションの実行方法を学習しません。
代わりに、キャプションは、次の 3 つの望ましい品質に対応する 3 つのネットワークが関与する推論プロセスとして発生します。(i) 大規模言語モデル (この場合は便宜上 GPT-2)、(ii) マッチングを提供するモデル
音声ファイルとテキストの間のスコア。これには、ImageBind と呼ばれるマルチモーダル マッチング ネットワークを使用します。(iii) 音声ファイルとテキストの両方の生成を指示するように設計されたプロンプトを GPT-4 に指示することで、自動的に収集したデータセットを使用してトレーニングされたテキスト分類器。
そして聞き取れない文章。
AudioCap データセットに関する結果を示し、可聴性ガイダンスがこの目的を欠いているベースラインと比較してパフォーマンスを大幅に向上させることを示しています。
要約(オリジナル)
The task of audio captioning is similar in essence to tasks such as image and video captioning. However, it has received much less attention. We propose three desiderata for captioning audio — (i) fluency of the generated text, (ii) faithfulness of the generated text to the input audio, and the somewhat related (iii) audibility, which is the quality of being able to be perceived based only on audio. Our method is a zero-shot method, i.e., we do not learn to perform captioning. Instead, captioning occurs as an inference process that involves three networks that correspond to the three desired qualities: (i) A Large Language Model, in our case, for reasons of convenience, GPT-2, (ii) A model that provides a matching score between an audio file and a text, for which we use a multimodal matching network called ImageBind, and (iii) A text classifier, trained using a dataset we collected automatically by instructing GPT-4 with prompts designed to direct the generation of both audible and inaudible sentences. We present our results on the AudioCap dataset, demonstrating that audibility guidance significantly enhances performance compared to the baseline, which lacks this objective.
arxiv情報
著者 | Tal Shaharabany,Ariel Shaulov,Lior Wolf |
発行日 | 2023-09-07 17:45:58+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google