Generative Context-aware Fine-tuning of Self-supervised Speech Models

要約

特定の発話に対する自動音声認識や話し言葉の理解などのタスクを実行する場合、先行するテキストまたは音声にアクセスするとコンテキスト情報が提供され、パフォーマンスが向上します。
生成大規模言語モデル (LLM) の最近の進歩を考慮して、LLM は前述のテキストを使用して有用なコンテキスト情報を生成できるという仮説を立てます。
適切なプロンプトを使用すると、LLM は次の文の予測や、タイトルやトピックなどの抽象的なテキストを生成できます。
この論文では、LLM によって生成されたコンテキスト情報の使用を研究し、自己教師あり音声モデルの微調整中に生成された情報を抽出するアプローチ (生成コンテキスト認識微調整と呼ぶ) を提案します。
このアプローチにより、微調整されたモデルは、推論時に実際の周囲のセグメントや LLM にアクセスすることなく、改善された予測を行うことができ、非常に小さな追加のコンテキスト モジュールのみが必要になります。
自動音声認識、固有表現認識、センチメント分析など、いくつかの下流タスクに対して SLUE および Libri-light ベンチマークを使用して、提案されたアプローチを評価します。
結果は、生成コンテキスト認識微調整が、グラウンドトゥルースの前のテキストにアクセスするコンテキスト挿入微調整アプローチよりも優れたパフォーマンスを示し、推論時に LLM を必要とする生成コンテキスト挿入微調整アプローチと競合できることを示しています。

要約(オリジナル)

When performing tasks like automatic speech recognition or spoken language understanding for a given utterance, access to preceding text or audio provides contextual information can improve performance. Considering the recent advances in generative large language models (LLM), we hypothesize that an LLM could generate useful context information using the preceding text. With appropriate prompts, LLM could generate a prediction of the next sentence or abstractive text like titles or topics. In this paper, we study the use of LLM-generated context information and propose an approach to distill the generated information during fine-tuning of self-supervised speech models, which we refer to as generative context-aware fine-tuning. This approach allows the fine-tuned model to make improved predictions without access to the true surrounding segments or to the LLM at inference time, while requiring only a very small additional context module. We evaluate the proposed approach using the SLUE and Libri-light benchmarks for several downstream tasks: automatic speech recognition, named entity recognition, and sentiment analysis. The results show that generative context-aware fine-tuning outperforms a context injection fine-tuning approach that accesses the ground-truth previous text, and is competitive with a generative context injection fine-tuning approach that requires the LLM at inference time.

arxiv情報

著者 Suwon Shon,Kwangyoun Kim,Prashant Sridhar,Yi-Te Hsu,Shinji Watanabe,Karen Livescu
発行日 2023-12-15 15:46:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク