We Augmented Whisper With kNN and You Won’t Believe What Came Next

要約

音声認識のパフォーマンスは、言語、ドメイン、アクセントなどの話者の特性によって異なり、これらのカテゴリのいずれかに基づいてモデルを微調整すると、致命的な物忘れにつながる可能性があります。
$k$ 最近傍検索 ($k$NN) は、自然言語生成 (NLG) と機械翻訳 (MT) 用のニューラル シーケンス デコーダー用に最初に提案されたノンパラメトリック手法であり、代わりに、次のような外部データストアを構築することで適応できます。
その後、基礎となるモデルをトレーニングすることなく、推論時に検索されます。
トランスフォーマーのエンドツーエンド音声モデルである Whisper が $k$NN から恩恵を受けることを示します。
音声設定とテキスト設定の違いを調査します。
話者適応への影響について議論し、性別、アクセント、年齢ごとの改善を分析します。

要約(オリジナル)

Speech recognition performance varies by language, domain, and speaker characteristics such as accent, and fine-tuning a model on any of these categories may lead to catastrophic forgetting. $k$ nearest neighbor search ($k$NN), first proposed for neural sequence decoders for natural language generation (NLG) and machine translation (MT), is a non-parametric method that can instead adapt by building an external datastore that can then be searched during inference time, without training the underlying model. We show that Whisper, a transformer end-to-end speech model, benefits from $k$NN. We investigate the differences between the speech and text setups. We discuss implications for speaker adaptation, and analyze improvements by gender, accent, and age.

arxiv情報

著者 Maya K. Nachesa,Vlad Niculae
発行日 2024-10-24 15:32:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク