WhisperNER: Unified Open Named Entity and Speech Recognition


固有表現認識 (NER) と自動音声認識 (ASR) を統合すると、文字起こしの精度と情報提供力が大幅に向上します。
この論文では、音声の共同転写とエンティティ認識を可能にする新しいモデルである WhisperNER を紹介します。
WhisperNER はオープンタイプの NER をサポートしており、推論時に多様で進化するエンティティの認識を可能にします。
オープン NER 研究における最近の進歩に基づいて、私たちは大規模な合成データセットを合成音声サンプルで強化します。
これにより、多様な NER タグを持つ多数の例で WhisperNER をトレーニングできるようになります。
トレーニング中、モデルは NER ラベルを使用してプロンプトされ、対応するタグ付きエンティティとともに文字起こしされた発話を出力するように最適化されます。
WhisperNER を評価するために、一般的に使用される NER ベンチマークの合成音声を生成し、オープン NER タグで既存の ASR データセットに注釈を付けます。
私たちの実験では、WhisperNER がドメイン外のオープン タイプ NER と教師付き微調整の両方で自然なベースラインよりも優れていることが実証されました。


Integrating named entity recognition (NER) with automatic speech recognition (ASR) can significantly enhance transcription accuracy and informativeness. In this paper, we introduce WhisperNER, a novel model that allows joint speech transcription and entity recognition. WhisperNER supports open-type NER, enabling recognition of diverse and evolving entities at inference. Building on recent advancements in open NER research, we augment a large synthetic dataset with synthetic speech samples. This allows us to train WhisperNER on a large number of examples with diverse NER tags. During training, the model is prompted with NER labels and optimized to output the transcribed utterance along with the corresponding tagged entities. To evaluate WhisperNER, we generate synthetic speech for commonly used NER benchmarks and annotate existing ASR datasets with open NER tags. Our experiments demonstrate that WhisperNER outperforms natural baselines on both out-of-domain open type NER and supervised finetuning.


著者 Gil Ayache,Menachem Pirchi,Aviv Navon,Aviv Shamsian,Gill Hetz,Joseph Keshet
発行日 2024-09-12 15:00:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク