SGEM: Test-Time Adaptation for Automatic Speech Recognition via Sequential-Level Generalized Entropy Minimization

要約

自動音声認識 (ASR) モデルは、多くの実世界のシナリオでデータ分布の変化に頻繁にさらされ、誤った予測につながります。
この問題に取り組むために、ソース データのないラベルなしのテスト インスタンスに事前トレーニングされた ASR モデルを適応させる既存のテスト時間適応 (TTA) 手法が最近提案されました。
かなりのパフォーマンス向上にもかかわらず、この作業は単純な貪欲デコードのみに依存し、フレーム レベルでタイムステップ全体の適応を実行しますが、モデル出力の逐次的な性質を考慮すると、これは最適ではない可能性があります。
これを動機として、私たちは一般的な ASR モデル用に SGEM と呼ばれる新しい TTA フレームワークを提案します。
シーケンシャル出力を処理するために、SGEM はまずビーム検索を利用して候補出力ロジットを探索し、最も妥当性のあるものを選択します。
次に、モデルを適応させるための教師なしの目的として、一般化エントロピー最小化とネガティブ サンプリングを利用します。
SGEM は、さまざまなドメインの移行下で 3 つの主流の ASR モデルに対して最先端のパフォーマンスを実現します。

要約(オリジナル)

Automatic speech recognition (ASR) models are frequently exposed to data distribution shifts in many real-world scenarios, leading to erroneous predictions. To tackle this issue, an existing test-time adaptation (TTA) method has recently been proposed to adapt the pre-trained ASR model on unlabeled test instances without source data. Despite decent performance gain, this work relies solely on naive greedy decoding and performs adaptation across timesteps at a frame level, which may not be optimal given the sequential nature of the model output. Motivated by this, we propose a novel TTA framework, dubbed SGEM, for general ASR models. To treat the sequential output, SGEM first exploits beam search to explore candidate output logits and selects the most plausible one. Then, it utilizes generalized entropy minimization and negative sampling as unsupervised objectives to adapt the model. SGEM achieves state-of-the-art performance for three mainstream ASR models under various domain shifts.

arxiv情報

著者 Changhun Kim,Joonhyung Park,Hajin Shim,Eunho Yang
発行日 2023-06-21 11:13:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, eess.AS パーマリンク