Can Whisper perform speech-based in-context learning

要約

この論文では、OpenAI によってリリースされた Whisper 自動音声認識 (ASR) モデルのコンテキスト内学習能力を調査します。
新しい音声ベースのインコンテキスト学習 (SICL) アプローチがテスト時適応のために提案されており、勾配降下法を使用せずに少数のラベル付き音声サンプルのみで単語誤り率 (WER) を削減できます。
中国語の方言を使用した言語レベルの適応実験では、SICL を孤立単語 ASR に適用すると、2 つの方言で任意のサイズの Whisper モデルを使用して、一貫したかなりの相対的な WER 削減 (平均 32.3%) を達成できることが示されました。
k 最近傍ベースのコンテキスト内サンプル選択手法を適用すると、SICL の効率がさらに向上し、平均相対 WER 削減率が 36.4% に増加します。
この結果は、話者適応タスクまたは連続音声認識タスクを使用して検証され、どちらも相対的な WER の大幅な削減を達成しました。
音韻上の差異や方言特有の語彙のニュアンスに対する SICL の適応性を明らかにするために、詳細な定量分析も提供されます。

要約(オリジナル)

This paper investigates the in-context learning abilities of the Whisper automatic speech recognition (ASR) models released by OpenAI. A novel speech-based in-context learning (SICL) approach is proposed for test-time adaptation, which can reduce the word error rates (WERs) with only a small number of labelled speech samples without gradient descent. Language-level adaptation experiments using Chinese dialects showed that when applying SICL to isolated word ASR, consistent and considerable relative WER reductions can be achieved using Whisper models of any size on two dialects, which is on average 32.3%. A k-nearest-neighbours-based in-context example selection technique can be applied to further improve the efficiency of SICL, which can increase the average relative WER reduction to 36.4%. The findings are verified using speaker adaptation or continuous speech recognition tasks, and both achieved considerable relative WER reductions. Detailed quantitative analyses are also provided to shed light on SICL’s adaptability to phonological variances and dialect-specific lexical nuances.

arxiv情報

著者 Siyin Wang,Chao-Han Huck Yang,Ji Wu,Chao Zhang
発行日 2023-09-13 16:46:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク