End-to-End Open Vocabulary Keyword Search With Multilingual Neural Representations


従来のキーワード検索システムは自動音声認識 (ASR) 出力で動作するため、インデックス作成と検索パイプラインが複雑になります。
このため、検索手順を簡素化するための ASR フリーのアプローチへの関心が高まっています。
私たちは最近、効率的で簡素化されたパイプラインを維持しながら競争力のあるパフォーマンスを達成するニューラル ASR フリー キーワード検索モデルを提案しました。このモデルでは、クエリとドキュメントが 1 対のリカレント ニューラル ネットワーク エンコーダーでエンコードされ、そのエンコードがドット積で結合されます。
私たちの実験では、提案された多言語トレーニングがモデルのパフォーマンスを大幅に向上させ、短いクエリや語彙内の単語を含むクエリについては強力な ASR ベースの従来のキーワード検索システムに匹敵しないにもかかわらず、提案されたモデルが長いクエリについては ASR ベースのシステムよりも優れていることを示しています。
トレーニング データに現れないクエリ。


Conventional keyword search systems operate on automatic speech recognition (ASR) outputs, which causes them to have a complex indexing and search pipeline. This has led to interest in ASR-free approaches to simplify the search procedure. We recently proposed a neural ASR-free keyword search model which achieves competitive performance while maintaining an efficient and simplified pipeline, where queries and documents are encoded with a pair of recurrent neural network encoders and the encodings are combined with a dot-product. In this article, we extend this work with multilingual pretraining and detailed analysis of the model. Our experiments show that the proposed multilingual training significantly improves the model performance and that despite not matching a strong ASR-based conventional keyword search system for short queries and queries comprising in-vocabulary words, the proposed model outperforms the ASR-based system for long queries and queries that do not appear in the training data.


著者 Bolaji Yusuf,Jan Cernocky,Murat Saraclar
発行日 2023-08-15 20:33:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク