GENIUS: A Generative Framework for Universal Multimodal Search

要約

生成検索は、クエリに基づいてターゲットデータの識別子(ID)を生成する情報検索の新たなアプローチであり、従来の埋め込みベースの検索方法に効率的な代替手段を提供します。
ただし、既存のモデルはタスク固有であり、パフォーマンスの埋め込みベースの検索には及ばない。
このペーパーでは、複数のモダリティとドメインにわたる多様なタスクをサポートする普遍的な生成検索フレームワークであるGeniusを提案します。
その中心で、天才はモダリティが分類されたセマンティック量子化を導入し、マルチモーダルデータをモダリティとセマンティクスの両方をエンコードする離散IDに変換します。
さらに、一般化を強化するために、クエリとそのターゲットの間を補間するクエリ増強を提案し、天才がさまざまなクエリフォームに適応できるようにします。
M-Beirベンチマークで評価され、明確なマージンで以前の生成方法を上回ります。
埋め込みベースの検索とは異なり、天才は一貫してデータベースサイズ全体で高い検索速度を維持し、複数のベンチマークで競争力のあるパフォーマンスを備えています。
追加の再ランクにより、天才はしばしば、効率を維持しながら、埋め込みベースの方法の結果に近い結果を達成します。

要約(オリジナル)

Generative retrieval is an emerging approach in information retrieval that generates identifiers (IDs) of target data based on a query, providing an efficient alternative to traditional embedding-based retrieval methods. However, existing models are task-specific and fall short of embedding-based retrieval in performance. This paper proposes GENIUS, a universal generative retrieval framework supporting diverse tasks across multiple modalities and domains. At its core, GENIUS introduces modality-decoupled semantic quantization, transforming multimodal data into discrete IDs encoding both modality and semantics. Moreover, to enhance generalization, we propose a query augmentation that interpolates between a query and its target, allowing GENIUS to adapt to varied query forms. Evaluated on the M-BEIR benchmark, it surpasses prior generative methods by a clear margin. Unlike embedding-based retrieval, GENIUS consistently maintains high retrieval speed across database size, with competitive performance across multiple benchmarks. With additional re-ranking, GENIUS often achieves results close to those of embedding-based methods while preserving efficiency.

arxiv情報

著者 Sungyeon Kim,Xinliang Zhu,Xiaofan Lin,Muhammet Bastan,Douglas Gray,Suha Kwak
発行日 2025-03-25 17:32:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.IR, cs.LG パーマリンク