Enhancing Multi-Image Question Answering via Submodular Subset Selection

要約

大規模なマルチモーダルモデル(LMM)は、単一の画像を含むビジョン言語タスクで高性能を達成しましたが、複数の画像のコレクション(複数の画像質問回答シナリオ)が表示されると苦労しています。
これらのタスクは、多数の画像にわたって推論を含む、スケーラビリティ(画像の数が増えて)と検索パフォーマンスの問題を提示します。
この作業では、サブモジュラーサブセット選択技術を使用して、Mirageモデルで導入されたRetriver Frameworkの強化を提案します。
メソッドは、GraphCutなどのクエリ認識サブモジュラー関数を活用して、メイン検索コンポーネントの前にセマンティックに関連する画像のサブセットを事前に選択します。
アンカーベースのクエリを使用してデータを拡張すると、特に大きな干し草のサイズにおいて、サブモジュラー – retrieverパイプラインの有効性が向上することを実証します。

要約(オリジナル)

Large multimodal models (LMMs) have achieved high performance in vision-language tasks involving single image but they struggle when presented with a collection of multiple images (Multiple Image Question Answering scenario). These tasks, which involve reasoning over large number of images, present issues in scalability (with increasing number of images) and retrieval performance. In this work, we propose an enhancement for retriever framework introduced in MIRAGE model using submodular subset selection techniques. Our method leverages query-aware submodular functions, such as GraphCut, to pre-select a subset of semantically relevant images before main retrieval component. We demonstrate that using anchor-based queries and augmenting the data improves submodular-retriever pipeline effectiveness, particularly in large haystack sizes.

arxiv情報

著者 Aaryan Sharma,Shivansh Gupta,Samar Agarwal,Vishak Prasad C.,Ganesh Ramakrishnan
発行日 2025-05-15 17:41:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク