How (not) to ensemble LVLMs for VQA

要約

この論文では、Large Vision-Language Model (LVLM) 時代のアンサンブルを研究します。
アンサンブルは、さまざまなモデルを組み合わせてパフォーマンスを向上させる古典的な方法です。
Encyclopedic-VQA に関する最近の研究では、著者らは、バニラの LVLM から、追加のコンテキストとしてキャプションを含むモデル、レンズベースの Wikipedia ページの検索で強化されたモデルに至るまで、さまざまなモデルを調査してタスクを解決しています。
直感的には、これらのモデルは非常に補完的であるため、アンサンブルに最適です。
実際、オラクルの実験では、48.8% の精度 (最高の単一モデル) から 67% (可能な限り最高のアンサンブル) までの潜在的な向上が示されています。
したがって、実質的なゲインを伴うアンサンブルを作成するのは簡単な作業です。
またはそれは?

要約(オリジナル)

This paper studies ensembling in the era of Large Vision-Language Models (LVLMs). Ensembling is a classical method to combine different models to get increased performance. In the recent work on Encyclopedic-VQA the authors examine a wide variety of models to solve their task: from vanilla LVLMs, to models including the caption as extra context, to models augmented with Lens-based retrieval of Wikipedia pages. Intuitively these models are highly complementary, which should make them ideal for ensembling. Indeed, an oracle experiment shows potential gains from 48.8% accuracy (the best single model) all the way up to 67% (best possible ensemble). So it is a trivial exercise to create an ensemble with substantial real gains. Or is it?

arxiv情報

著者 Lisa Alazraki,Lluis Castrejon,Mostafa Dehghani,Fantine Huot,Jasper Uijlings,Thomas Mensink
発行日 2023-10-10 14:04:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク