要約
音声認識のパフォーマンスは、言語、ドメイン、アクセントなどの話者の特性によって異なり、これらのカテゴリのいずれかに基づいてモデルを微調整すると、致命的な物忘れにつながる可能性があります。
$k$ 最近傍検索 ($k$NN) は、自然言語生成 (NLG) と機械翻訳 (MT) 用のニューラル シーケンス デコーダー用に最初に提案されたノンパラメトリック手法であり、代わりに、次のような外部データストアを構築することで適応できます。
その後、基礎となるモデルをトレーニングすることなく、推論時に検索されます。
トランスフォーマーのエンドツーエンド音声モデルである Whisper が $k$NN から恩恵を受けることを示します。
音声設定とテキスト設定の違いを調査します。
話者適応への影響について議論し、性別、アクセント、年齢ごとの改善を分析します。
要約(オリジナル)
Speech recognition performance varies by language, domain, and speaker characteristics such as accent, and fine-tuning a model on any of these categories may lead to catastrophic forgetting. $k$ nearest neighbor search ($k$NN), first proposed for neural sequence decoders for natural language generation (NLG) and machine translation (MT), is a non-parametric method that can instead adapt by building an external datastore that can then be searched during inference time, without training the underlying model. We show that Whisper, a transformer end-to-end speech model, benefits from $k$NN. We investigate the differences between the speech and text setups. We discuss implications for speaker adaptation, and analyze improvements by gender, accent, and age.
arxiv情報
著者 | Maya K. Nachesa,Vlad Niculae |
発行日 | 2024-10-24 15:32:52+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google