要約
検索拡張生成 (RAG) は、クエリに関連する外部知識を取得し、それを生成プロセスに組み込むことで、基礎モデルで事実に誤りのある出力を生成する問題に対処する強力な戦略です。
しかし、既存の RAG アプローチは主にテキスト情報に焦点を当てており、最近のいくつかの進歩では画像を考慮し始めており、イベント、プロセス、およびコンテキストの詳細を他のモダリティよりも効果的に表現できるマルチモーダルな知識の豊富なソースであるビデオはほとんど見落とされています。
最近のいくつかの研究では、応答生成プロセスにおけるビデオの統合を検討していますが、クエリに従ってビデオを取得せずにクエリに関連付けられたビデオを事前定義するか、マルチモーダルな豊富さを利用せずにビデオをテキスト記述に変換します。
これらに取り組むために、クエリとの関連性に基づいて関連ビデオを動的に取得するだけでなく、出力生成時にビデオの視覚情報とテキスト情報の両方を利用する新しいフレームワークである VideoRAG を紹介します。
さらに、これを運用するために、私たちの方法は、最近のラージ ビデオ言語モデル (LVLM) の進歩を中心に展開しており、これにより、ビデオ コンテンツを直接処理して検索用に表現したり、検索されたビデオをクエリと組み合わせてシームレスに統合したりすることが可能になります。
VideoRAG の有効性を実験的に検証し、関連するベースラインよりも優れていることを示しています。
要約(オリジナル)
Retrieval-Augmented Generation (RAG) is a powerful strategy to address the issue of generating factually incorrect outputs in foundation models by retrieving external knowledge relevant to queries and incorporating it into their generation process. However, existing RAG approaches have primarily focused on textual information, with some recent advancements beginning to consider images, and they largely overlook videos, a rich source of multimodal knowledge capable of representing events, processes, and contextual details more effectively than any other modality. While a few recent studies explore the integration of videos in the response generation process, they either predefine query-associated videos without retrieving them according to queries, or convert videos into the textual descriptions without harnessing their multimodal richness. To tackle these, we introduce VideoRAG, a novel framework that not only dynamically retrieves relevant videos based on their relevance with queries but also utilizes both visual and textual information of videos in the output generation. Further, to operationalize this, our method revolves around the recent advance of Large Video Language Models (LVLMs), which enable the direct processing of video content to represent it for retrieval and seamless integration of the retrieved videos jointly with queries. We experimentally validate the effectiveness of VideoRAG, showcasing that it is superior to relevant baselines.
arxiv情報
著者 | Soyeong Jeong,Kangsan Kim,Jinheon Baek,Sung Ju Hwang |
発行日 | 2025-01-10 11:17:15+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google