What matters when building vision-language models?

要約

視覚言語モデル(VLM)への関心の高まりは、大規模言語モデルや視覚変換器の改良によってもたらされている。このテーマに関する多くの文献があるにもかかわらず、我々はVLMの設計に関する重要な決定がしばしば正当化されないことを観察している。我々は、このような根拠のない決定は、どの選択がモデルの性能を向上させるかを特定することを困難にし、この分野の進歩を妨げると主張する。この問題に対処するため、事前訓練済みモデル、アーキテクチャの選択、データ、訓練方法に関する広範な実験を行った。その結果、80億個のパラメータを持つ効率的な基礎VLMであるIdefics2が開発されました。Idefics2は、様々なマルチモーダルベンチマークにおいて、そのサイズのカテゴリ内で最先端の性能を達成し、しばしばその4倍のサイズのモデルと同等である。我々は、モデル(ベース、インストラクション、チャット)と、そのトレーニングのために作成されたデータセットを公開します。

要約(オリジナル)

The growing interest in vision-language models (VLMs) has been driven by improvements in large language models and vision transformers. Despite the abundance of literature on this subject, we observe that critical decisions regarding the design of VLMs are often not justified. We argue that these unsupported decisions impede progress in the field by making it difficult to identify which choices improve model performance. To address this issue, we conduct extensive experiments around pre-trained models, architecture choice, data, and training methods. Our consolidation of findings includes the development of Idefics2, an efficient foundational VLM of 8 billion parameters. Idefics2 achieves state-of-the-art performance within its size category across various multimodal benchmarks, and is often on par with models four times its size. We release the model (base, instructed, and chat) along with the datasets created for its training.

arxiv情報

著者 Hugo Laurençon,Léo Tronchon,Matthieu Cord,Victor Sanh
発行日 2024-05-03 17:00:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV パーマリンク