E2E Spoken Entity Extraction for Virtual Agents




– スピーチエンコーダーを使用したスピーチ処理のいくつかの側面を再考し、中間のテキスト表現なしにスピーチからエンティティを直接抽出することについて研究しています。
– 人工知能を使用した会話において、名前、住所、電子メールアドレスなどのエンティティをスピーチから抽出することは困難な課題である。
– この論文では、事前にトレーニングされたスピーチエンコーダーを微調整して、テキスト転写の必要なしに、スピーチから人間が読める形式で直接話されたエンティティを抽出することの影響を研究します。
– このような直接的なアプローチは、エンコーダーを最適化し、キャリアーフレーズやスペル名のエンティティなどの余分な部分を無視して、スピーチのエンティティに関連する部分のみを転写するようにします。
– 企業のバーチャルエージェントの対話の文脈で、従来のレキシカル転写を生成してからテキストベースのエンティティ抽出を行う2段階アプローチよりも1段階アプローチの方が優れていることを示します。


This paper rethink some aspects of speech processing using speech encoders, specifically about extracting entities directly from speech, without intermediate textual representation. In human-computer conversations, extracting entities such as names, street addresses and email addresses from speech is a challenging task. In this paper, we study the impact of fine-tuning pre-trained speech encoders on extracting spoken entities in human-readable form directly from speech without the need for text transcription. We illustrate that such a direct approach optimizes the encoder to transcribe only the entity relevant portions of speech ignoring the superfluous portions such as carrier phrases, or spell name entities. In the context of dialog from an enterprise virtual agent, we demonstrate that the 1-step approach outperforms the typical 2-step approach which first generates lexical transcriptions followed by text-based entity extraction for identifying spoken entities.


著者 Karan Singla,Yeon-Jun Kim
発行日 2023-04-16 16:21:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク