要約
この研究では、特定のテキスト プロンプトに基づいてテキスト ドメイン情報の生成を条件付けることにより、テキスト ドメイン情報を利用する、ドメインに依存する音声認識モデルを作成する方法を提案します。
これは、事前にトレーニングされたエンドツーエンドのモデル (Whisper) を微調整して、プロンプトの例を含むデモンストレーションから学習することで実現されます。
私たちは、この機能がさまざまなドメインやさまざまなプロンプト コンテキストにまで一般化できることを示し、このモデルでは、医療上の会話や航空管制通信など、さまざまなドメインからの目に見えないデータセットでワード エラー レート (WER) が最大 33% 削減されました。
、財務会議など。
オーディオとトランスクリプトのペア データの利用可能性が限られていることを考慮して、この方法をテキストのみの微調整にさらに拡張して、ドメインの感度とドメインの適応を実現します。
テキストのみの微調整モデルがさまざまなプロンプト コンテキストにも対応できることを実証し、このモデルは医療会話データセットで 29% という最大の WER 削減に達しました。
要約(オリジナル)
In this work, we propose a method to create domain-sensitive speech recognition models that utilize textual domain information by conditioning its generation on a given text prompt. This is accomplished by fine-tuning a pre-trained, end-to-end model (Whisper) to learn from demonstrations with prompt examples. We show that this ability can be generalized to different domains and even various prompt contexts, with our model gaining a Word Error Rate (WER) reduction of up to 33% on unseen datasets from various domains, such as medical conversation, air traffic control communication, and financial meetings. Considering the limited availability of audio-transcript pair data, we further extend our method to text-only fine-tuning to achieve domain sensitivity as well as domain adaptation. We demonstrate that our text-only fine-tuned model can also attend to various prompt contexts, with the model reaching the most WER reduction of 29% on the medical conversation dataset.
arxiv情報
著者 | Feng-Ting Liao,Yung-Chieh Chan,Yi-Chang Chen,Chan-Jan Hsu,Da-shan Shiu |
発行日 | 2023-10-06 03:41:30+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google