Context-aware Fine-tuning of Self-supervised Speech Models

要約

自己監視型の事前トレーニング済みトランスフォーマーは、さまざまな音声タスクの最先端を改善しました。
自己注意の二次的な時間と空間の複雑さのために、それらは通常、比較的短い (発話など) セグメントのレベルで動作します。
この論文では、微調整中のコンテキスト、つまり周囲のセグメントの使用を研究し、コンテキストを意識した微調整と呼ばれる新しいアプローチを提案します。
事前トレーニング済みモデルの最後のレイヤーの上にコンテキスト モジュールをアタッチして、セグメント全体をコンテキスト埋め込みベクトルにエンコードします。これは、最終的な予測の追加機能として使用されます。
微調整の段階で、このコンテキスト埋め込みベクトルが周囲のセグメントのコンテキスト ベクトルに類似するように促進する補助損失を導入します。
これにより、モデルは、推論時にこれらの周囲のセグメントにアクセスすることなく予測を行うことができ、標準の微調整モデルと比較してわずかなオーバーヘッドしか必要としません。
自動音声認識 (ASR)、固有表現認識 (NER)、感情分析 (SA) などのいくつかのダウンストリーム タスクに対して、SLUE および Libri-light ベンチマークを使用して、提案されたアプローチを評価します。
結果は、コンテキストに応じた微調整が標準の微調整ベースラインよりも優れているだけでなく、推論中に隣接する音声セグメントを使用する強力なコンテキスト注入ベースラインにも匹敵することを示しています。

要約(オリジナル)

Self-supervised pre-trained transformers have improved the state of the art on a variety of speech tasks. Due to the quadratic time and space complexity of self-attention, they usually operate at the level of relatively short (e.g., utterance) segments. In this paper, we study the use of context, i.e., surrounding segments, during fine-tuning and propose a new approach called context-aware fine-tuning. We attach a context module on top of the last layer of a pre-trained model to encode the whole segment into a context embedding vector which is then used as an additional feature for the final prediction. During the fine-tuning stage, we introduce an auxiliary loss that encourages this context embedding vector to be similar to context vectors of surrounding segments. This allows the model to make predictions without access to these surrounding segments at inference time and requires only a tiny overhead compared to standard fine-tuned models. We evaluate the proposed approach using the SLUE and Libri-light benchmarks for several downstream tasks: Automatic speech recognition (ASR), named entity recognition (NER), and sentiment analysis (SA). The results show that context-aware fine-tuning not only outperforms a standard fine-tuning baseline but also rivals a strong context injection baseline that uses neighboring speech segments during inference.

arxiv情報

著者 Suwon Shon,Felix Wu,Kwangyoun Kim,Prashant Sridhar,Karen Livescu,Shinji Watanabe
発行日 2023-03-28 21:20:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, eess.AS パーマリンク