要約
キーワード検索(KWS)に対するエンドツーエンド(E2E)アプローチは、自動音声認識(ASR)システムの出力を使用するアプローチと比較すると、学習とインデックス作成の複雑さの点でかなり単純である。しかし、この単純化には、モジュール性が失われるという欠点がある。特に、ASRベースのKWSシステムは、言語モデルを介して外部のペアリングされていないテキストから恩恵を受けることができるが、E2E KWSシステムの現在の定式化にはそのようなメカニズムがない。そこで本稿では、索引付けや検索を複雑にすることなく、非対応テキストをE2E KWSに統合することを可能にするマルチタスク学習目的を提案する。音声文書からテキストクエリを検索するためにE2E KWSモデルを訓練することに加え、マスクされた文字文書からテキストクエリを検索するためにE2E KWSモデルを訓練する。このアプローチにより、ペアリングされていないテキストを効果的にKWSに活用でき、様々な言語において検索性能が大幅に向上することを実証的に示す。提案手法が、ペアリングされていないテキスト中の単語に対する文書表現を改善することにより、このような改善が達成されることを示す分析を行う。最後に、提案手法が、ドメイン内のペアデータが乏しい、あるいは存在しない環境において、ドメイン適応に利用できることを示す。
要約(オリジナル)
End-to-end (E2E) approaches to keyword search (KWS) are considerably simpler in terms of training and indexing complexity when compared to approaches which use the output of automatic speech recognition (ASR) systems. This simplification however has drawbacks due to the loss of modularity. In particular, where ASR-based KWS systems can benefit from external unpaired text via a language model, current formulations of E2E KWS systems have no such mechanism. Therefore, in this paper, we propose a multitask training objective which allows unpaired text to be integrated into E2E KWS without complicating indexing and search. In addition to training an E2E KWS model to retrieve text queries from spoken documents, we jointly train it to retrieve text queries from masked written documents. We show empirically that this approach can effectively leverage unpaired text for KWS, with significant improvements in search performance across a wide variety of languages. We conduct analysis which indicates that these improvements are achieved because the proposed method improves document representations for words in the unpaired text. Finally, we show that the proposed method can be used for domain adaptation in settings where in-domain paired data is scarce or nonexistent.
arxiv情報
著者 | Bolaji Yusuf,Murat Saraçlar |
発行日 | 2024-07-05 15:50:47+00:00 |
arxivサイト | arxiv_id(pdf) |