要約
音声データに対する質問応答の一般的なアプローチの1つは、まず自動音声認識(ASR)を使って音声を書き起こし、次に書き起こした音声に対してテキストベースの検索拡張生成(RAG)を採用することである。このカスケード型パイプラインは多くの実用的な場面で有効であることが証明されているが、ASRのエラーは検索と生成のステップに伝播する可能性がある。この制限を克服するために、音声データに対する公開質問応答のために設計された新しいフレームワークであるSpeechRAGを紹介する。我々の提案するアプローチは、事前に訓練された音声エンコーダを、凍結された大規模言語モデル(LLM)ベースの検索モデルに供給される音声アダプタに微調整する。テキストと音声の埋め込み空間を整合させることで、我々の音声検索エンジンはテキストベースのクエリから音声を直接検索し、凍結されたテキスト検索エンジンの検索能力を活用する。音声質問応答データセットを用いた検索実験により、直接音声検索はテキストベースのベースラインよりも劣化せず、ASRを用いたカスケードシステムよりも優れていることが示された。生成には音声言語モデル(SLM)を使用し、トランスクリプトではなく音声を条件として生成する。SLMを微調整することなく、トランスクリプトに高いWERがある場合、このアプローチはカスケード接続されたテキストベースのモデルを上回る。
要約(オリジナル)
One common approach for question answering over speech data is to first transcribe speech using automatic speech recognition (ASR) and then employ text-based retrieval-augmented generation (RAG) on the transcriptions. While this cascaded pipeline has proven effective in many practical settings, ASR errors can propagate to the retrieval and generation steps. To overcome this limitation, we introduce SpeechRAG, a novel framework designed for open-question answering over spoken data. Our proposed approach fine-tunes a pre-trained speech encoder into a speech adapter fed into a frozen large language model (LLM)–based retrieval model. By aligning the embedding spaces of text and speech, our speech retriever directly retrieves audio passages from text-based queries, leveraging the retrieval capacity of the frozen text retriever. Our retrieval experiments on spoken question answering datasets show that direct speech retrieval does not degrade over the text-based baseline, and outperforms the cascaded systems using ASR. For generation, we use a speech language model (SLM) as a generator, conditioned on audio passages rather than transcripts. Without fine-tuning of the SLM, this approach outperforms cascaded text-based models when there is high WER in the transcripts.
arxiv情報
著者 | Do June Min,Karel Mundnich,Andy Lapastora,Erfan Soltanmohammadi,Srikanth Ronanki,Kyu Han |
発行日 | 2025-01-03 07:18:30+00:00 |
arxivサイト | arxiv_id(pdf) |