要約
このホワイト ペーパーでは、音声エンコーダを使用した音声処理のいくつかの側面、特に、中間のテキスト表現を使用せずに、音声から直接エンティティを抽出する方法について再考します。
人間とコンピューターの会話では、音声から名前、住所、電子メール アドレスなどのエンティティを抽出することは困難な作業です。
このホワイト ペーパーでは、テキストの書き起こしを必要とせずに、人間が読める形式で音声エンティティを音声から直接抽出する際の、事前トレーニング済みの音声エンコーダーの微調整の影響を調べます。
このような直接的なアプローチは、キャリア フレーズやエンティティのスペルなどの余分な部分を無視して、エンティティに関連する音声部分のみを転記するようにエンコーダを最適化することを示します。
エンタープライズ仮想エージェントからのダイアログのコンテキストでは、1 ステップのアプローチが、最初に字句転写を生成し、その後、音声エンティティを識別するためのテキストベースのエンティティ抽出を行う典型的な 2 ステップのカスケードよりも優れていることを示しています。
要約(オリジナル)
This paper reimagines some aspects of speech processing using speech encoders, specifically about extracting entities directly from speech, with no intermediate textual representation. In human-computer conversations, extracting entities such as names, postal addresses and email addresses from speech is a challenging task. In this paper, we study the impact of fine-tuning pre-trained speech encoders on extracting spoken entities in human-readable form directly from speech without the need for text transcription. We illustrate that such a direct approach optimizes the encoder to transcribe only the entity relevant portions of speech, ignoring the superfluous portions such as carrier phrases and spellings of entities. In the context of dialogs from an enterprise virtual agent, we demonstrate that the 1-step approach outperforms the typical 2-step cascade of first generating lexical transcriptions followed by text-based entity extraction for identifying spoken entities.
arxiv情報
著者 | Karan Singla,Yeon-Jun Kim,Srinivas Bangalore |
発行日 | 2023-03-17 15:04:27+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google