Prompting the Hidden Talent of Web-Scale Speech Models for Zero-Shot Task Generalization

要約

私たちは、最近提案されたウェブスケールの音声モデル Whisper の新たな能力を、迅速なエンジニアリングによって目に見えないタスクに適応させることによって調査します。
私たちは、視聴覚音声認識 (AVSR)、コード交換音声認識 (CS-ASR)、および未知の言語ペアでの音声翻訳 (ST) の 3 つのタスクを選択しました。
別の大規模モデルを活用するか、デフォルトのプロンプト内の特別なトークンを単純に操作することによって、タスク固有のプロンプトを設計します。
実験の結果、デフォルトのプロンプトと比較して、私たちが提案したプロンプトは 3 つのゼロショット タスクでパフォーマンスが 10% ~ 45% 向上し、一部のデータセットでは SotA 教師ありモデルを上回るパフォーマンスを示すことが示されました。
さらに、私たちの実験では、プロンプトに対する堅牢性、アクセントの偏り、潜在空間での多言語理解など、Whisper の多くの興味深い特性が明らかになりました。
コードは https://github.com/jasonppy/PromptingWhisper で入手できます。

要約(オリジナル)

We investigate the emergent abilities of the recently proposed web-scale speech model Whisper, by adapting it to unseen tasks with prompt engineering. We selected three tasks: audio-visual speech recognition (AVSR), code-switched speech recognition (CS-ASR), and speech translation (ST) on unseen language pairs. We design task-specific prompts, by either leveraging another large-scale model, or simply manipulating the special tokens in the default prompts. Experiments show that compared to the default prompts, our proposed prompts improve performance by 10% to 45% on the three zero-shot tasks, and even outperform SotA supervised models on some datasets. In addition, our experiments reveal many interesting properties of Whisper, including its robustness to prompts, bias on accents, and the multilingual understanding in its latent space. Code is available at https://github.com/jasonppy/PromptingWhisper

arxiv情報

著者 Puyuan Peng,Brian Yan,Shinji Watanabe,David Harwath
発行日 2023-08-16 00:57:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, cs.SD, eess.AS パーマリンク