Do Prompts Really Prompt? Exploring the Prompt Understanding Capability of Whisper

要約

この研究では、プロンプトの情報が高性能音声認識モデル Whisper とどのように相互作用するかを調査します。
正しい情報を含むプロンプトが表示された場合と、誤った情報を含む破損したプロンプトが表示された場合のパフォーマンスを比較します。
私たちの結果は、予想外に、ウィスパーが人間が期待する方法でテキストのプロンプトを理解できない可能性があることを示しています。
さらに、テキスト プロンプト内のトピック情報をより強く遵守したとしても、パフォーマンスの向上が保証されないことがわかりました。
また、両方の言語のデータセットでは、英語のプロンプトが一般に中国語のプロンプトよりも優れていることにも注意してください。これは、トレーニング前のシナリオとの不一致にもかかわらず、これらの言語のトレーニング データの分布の違いによるものと考えられます。
逆に、Whisper は、誤った言語トークンを無視し、正しい言語トークンに焦点を当てることで、言語トークン内の誤解を招く情報に対する認識を示していることがわかりました。
要約すると、私たちはウィスパーの迅速な理解について洞察力に富んだ質問を提起し、その直観に反する行動を明らかにします。
さらなる研究を奨励します。

要約(オリジナル)

This research explores how the information of prompts interacts with the high-performing speech recognition model, Whisper. We compare its performances when prompted by prompts with correct information and those corrupted with incorrect information. Our results unexpectedly show that Whisper may not understand the textual prompts in a human-expected way. Additionally, we find that performance improvement is not guaranteed even with stronger adherence to the topic information in textual prompts. It is also noted that English prompts generally outperform Mandarin ones on datasets of both languages, likely due to differences in training data distributions for these languages despite the mismatch with pre-training scenarios. Conversely, we discover that Whisper exhibits awareness of misleading information in language tokens by ignoring incorrect language tokens and focusing on the correct ones. In sum, We raise insightful questions about Whisper’s prompt understanding and reveal its counter-intuitive behaviors. We encourage further studies.

arxiv情報

著者 Chih-Kai Yang,Kuan-Po Huang,Hung-yi Lee
発行日 2024-09-16 16:26:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク