WavRAG: Audio-Integrated Retrieval Augmented Generation for Spoken Dialogue Models

要約

検索拡張生成(RAG)は、大規模な言語モデル(LLM)に外部知識を統合できるように力を与える能力により、広範囲にわたる採用を獲得しています。
ただし、既存のRAGフレームワークは主にテキストベースのLLM向けに設計されており、自動音声認識に依存して音声入力を処理します。これは、重要なオーディオ情報を破棄し、転写エラーをリスクリスクし、計算オーバーヘッドを増加させます。
したがって、ネイティブのエンドツーエンドのオーディオサポートを使用した最初の検索拡張生成フレームワークであるWavragを紹介します。
Wavragは2つの重要な機能を提供します。1)ASRのバイパス、Wavragは埋め込みと検索の両方でRAWオーディオを直接処理します。
2)WAVRAGは、オーディオとテキストを統合された知識表現に統合します。
具体的には、Wavretrieverを提案して、テキストオーディオハイブリッドナレッジベースからの検索を促進し、考え方の推論の統合を通じて話し言葉モデルのコンテキスト内機能をさらに強化します。
最先端のASRテキストRAGパイプラインと比較して、Wavragは10倍の加速を提供しながら、同等の検索パフォーマンスを実現します。
さらに、Wavragのユニークなテキストオーディオハイブリッド検索機能は、Ragの境界をオーディオモダリティに拡張します。

要約(オリジナル)

Retrieval Augmented Generation (RAG) has gained widespread adoption owing to its capacity to empower large language models (LLMs) to integrate external knowledge. However, existing RAG frameworks are primarily designed for text-based LLMs and rely on Automatic Speech Recognition to process speech input, which discards crucial audio information, risks transcription errors, and increases computational overhead. Therefore, we introduce WavRAG, the first retrieval augmented generation framework with native, end-to-end audio support. WavRAG offers two key features: 1) Bypassing ASR, WavRAG directly processes raw audio for both embedding and retrieval. 2) WavRAG integrates audio and text into a unified knowledge representation. Specifically, we propose the WavRetriever to facilitate the retrieval from a text-audio hybrid knowledge base, and further enhance the in-context capabilities of spoken dialogue models through the integration of chain-of-thought reasoning. In comparison to state-of-the-art ASR-Text RAG pipelines, WavRAG achieves comparable retrieval performance while delivering a 10x acceleration. Furthermore, WavRAG’s unique text-audio hybrid retrieval capability extends the boundaries of RAG to the audio modality.

arxiv情報

著者 Yifu Chen,Shengpeng Ji,Haoxiao Wang,Ziqing Wang,Siyu Chen,Jinzheng He,Jin Xu,Zhou Zhao
発行日 2025-02-20 16:54:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.SD, eess.AS パーマリンク