要約
視覚的推論の認知能力には、マルチモーダルな知覚処理と世界に関する常識的・外在的知識の統合が必要である。近年、大規模な視覚言語モデル(LVLM)が数多く提案され、多様な領域やタスクにわたって、コモンセンス推論において卓越した能力と卓越した熟練度を示している。とはいえ、このようなLVLMの訓練には多くのコストがかかる。最近のアプローチでは、様々な大規模データセットでLVLMを一から訓練する代わりに、アンサンブル手法のような、多くの異なるLVLMの能力を活用する方法を探ることに焦点を当てている。本研究では、パラメータを更新することなくモデルの汎化性と視覚的推論を向上させる、訓練不要の新しい手法であるセルフアンサンブルを提案する。我々の重要な洞察は、LVLM自身が他のLVLMを必要とせずにアンサンブルできることを実現したことであり、これはLVLMの内部能力を引き出すのに役立つ。様々なベンチマークを用いた広範な実験により、SketchyVQA、Outside Knowledge VQA、およびOut-of-distribution VQAタスクにおいて、本手法が最先端の(SOTA)性能を達成する有効性が実証された。
要約(オリジナル)
The cognitive faculty of visual reasoning necessitates the integration of multimodal perceptual processing and commonsense and external knowledge of the world. In recent years, a plethora of large vision-language models (LVLMs) have been proposed, demonstrating outstanding power and exceptional proficiency in commonsense reasoning across diverse domains and tasks. Nevertheless, training such LVLMs requires a lot of costly resources. Recent approaches, instead of training LVLMs from scratch on various large datasets, focus on exploring ways to take advantage of the capabilities of many different LVLMs, such as ensemble methods. In this work, we propose self-ensemble, a novel method that improves the generalization and visual reasoning of the model without updating any parameters, a training-free method. Our key insight is that we realized that LVLM itself can ensemble without the need for any other LVLMs, which helps to unlock their internal capabilities. Extensive experiments on various benchmarks demonstrate the effectiveness of our method in achieving state-of-the-art (SOTA) performance on SketchyVQA, Outside Knowledge VQA, and out-of-distribution VQA tasks.
arxiv情報
著者 | Tien-Huy Nguyen,Quang-Khai Tran,Anh-Tuan Quang-Hoang |
発行日 | 2024-11-01 12:42:49+00:00 |
arxivサイト | arxiv_id(pdf) |