iRAG: An Incremental Retrieval Augmented Generation System for Videos

要約

検索拡張生成 (RAG) システムは、言語生成と情報検索の長所を組み合わせて、チャットボットなどの多くの現実世界のアプリケーションを強化します。
テキスト、画像、ビデオなどのマルチモーダル データを組み合わせて理解するための RAG の使用は魅力的ですが、2 つの重大な制限があります。テキスト説明として大規模なマルチモーダル データ内のすべてのコンテンツを 1 回だけ事前にキャプチャすると、処理時間が長くなり、データ内のすべての情報が得られるわけではありません。
豊富なマルチモーダル データは通常、テキストの説明に含まれます。
ユーザーのクエリはアプリオリに知られていないため、マルチモーダルからテキストへの変換およびマルチモーダル データの対話型クエリのためのシステムの開発は困難です。
これらの制限に対処するために、私たちは iRAG を提案します。iRAG は、新しい増分ワークフローで RAG を強化し、マルチモーダル データの大規模なコーパスの対話型クエリを可能にします。
従来の RAG とは異なり、iRAG はマルチモーダル データの大規模なリポジトリに迅速にインデックスを作成します。また、増分ワークフローでは、そのインデックスを使用して、マルチモーダル データの選択された部分から機会に応じて詳細を抽出し、対話型のユーザー クエリに関連するコンテキストを取得します。
このような増分ワークフローは、マルチモーダルからテキストへの長い変換時間を回避し、マルチモーダル データ内の詳細のクエリ固有の抽出をオンデマンドで実行することで情報損失の問題を克服し、アプリオリに知られていないことが多い対話型のユーザー クエリに対する応答の高品質を保証します。
私たちの知る限り、iRAG は、大規模な現実世界のマルチモーダル データの効率的な対話型クエリをサポートする増分ワークフローで RAG を強化した最初のシステムです。
実際の長いビデオでの実験結果では、ビデオからテキストへの取り込みが 23 倍から 25 倍高速であることが実証されており、インタラクティブなユーザー クエリに対する応答の品質は、クエリの前にすべてのビデオ データが事前にテキストに変換される従来の RAG からの応答と同等であることが保証されています。

要約(オリジナル)

Retrieval augmented generation (RAG) systems combine the strengths of language generation and information retrieval to power many real-world applications like chatbots. Use of RAG for combined understanding of multimodal data such as text, images and videos is appealing but two critical limitations exist: one-time, upfront capture of all content in large multimodal data as text descriptions entails high processing times, and not all information in the rich multimodal data is typically in the text descriptions. Since the user queries are not known apriori, developing a system for multimodal to text conversion and interactive querying of multimodal data is challenging. To address these limitations, we propose iRAG, which augments RAG with a novel incremental workflow to enable interactive querying of large corpus of multimodal data. Unlike traditional RAG, iRAG quickly indexes large repositories of multimodal data, and in the incremental workflow, it uses the index to opportunistically extract more details from select portions of the multimodal data to retrieve context relevant to an interactive user query. Such an incremental workflow avoids long multimodal to text conversion times, overcomes information loss issues by doing on-demand query-specific extraction of details in multimodal data, and ensures high quality of responses to interactive user queries that are often not known apriori. To the best of our knowledge, iRAG is the first system to augment RAG with an incremental workflow to support efficient interactive querying of large, real-world multimodal data. Experimental results on real-world long videos demonstrate 23x to 25x faster video to text ingestion, while ensuring that quality of responses to interactive user queries is comparable to responses from a traditional RAG where all video data is converted to text upfront before any querying.

arxiv情報

著者 Md Adnan Arefeen,Biplob Debnath,Md Yusuf Sarwar Uddin,Srimat Chakradhar
発行日 2024-04-18 16:38:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.IR, cs.LG パーマリンク