SpeechDPR: End-to-End Spoken Passage Retrieval for Open-Domain Spoken Question Answering


音声質問応答 (SQA) は、マシンが特定の音声パッセージ内の回答範囲を見つけてユーザーの質問に応答するために不可欠です。
SQA は、認識エラーや語彙不足 (OOV) の問題を回避するために、ASR を使用せずに以前は実現されていました。
しかし、オープンドメイン SQA (openSQA) の現実の問題、つまり、マシンは最初に、さらに音声アーカイブから回答を含む可能性のあるパッセージを取得する必要があるという問題は、まったく考慮されていませんでした。
この論文では、openSQA 問題の検索コンポーネント用に、既知の最初のエンドツーエンド フレームワークである Speech Dense Passage Retriever (SpeechDPR) を提案します。
SpeechDPR は、教師なし ASR (UASR) とテキスト デンス リトリーバー (TDR) のカスケード モデルから知識を抽出することによって、文レベルの意味表現を学習します。
初期の実験では、UASR と TDR のカスケード モデルと同等のパフォーマンスが示され、UASR が不十分な場合には大幅に向上し、このアプローチが音声認識エラーに対してより堅牢であることが実証されました。


Spoken Question Answering (SQA) is essential for machines to reply to user’s question by finding the answer span within a given spoken passage. SQA has been previously achieved without ASR to avoid recognition errors and Out-of-Vocabulary (OOV) problems. However, the real-world problem of Open-domain SQA (openSQA), in which the machine needs to first retrieve passages that possibly contain the answer from a spoken archive in addition, was never considered. This paper proposes the first known end-to-end framework, Speech Dense Passage Retriever (SpeechDPR), for the retrieval component of the openSQA problem. SpeechDPR learns a sentence-level semantic representation by distilling knowledge from the cascading model of unsupervised ASR (UASR) and text dense retriever (TDR). No manually transcribed speech data is needed. Initial experiments showed performance comparable to the cascading model of UASR and TDR, and significantly better when UASR was poor, verifying this approach is more robust to speech recognition errors.


著者 Chyi-Jiunn Lin,Guan-Ting Lin,Yung-Sung Chuang,Wei-Lun Wu,Shang-Wen Li,Abdelrahman Mohamed,Hung-yi Lee,Lin-shan Lee
発行日 2024-01-24 14:08:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR, cs.SD, eess.AS パーマリンク