Improved Baselines with Visual Instruction Tuning

要約

大規模マルチモーダル モデル (LMM) は、最近、視覚的な指示の調整において有望な進歩を示しています。
このノートでは、LLaVA の完全に接続されたビジョン言語クロスモーダル コネクタが驚くほど強力でデータ効率が高いことを示します。
LLaVA への簡単な変更、つまり MLP プロジェクションで CLIP-ViT-L-336px を使用し、シンプルな応答書式設定プロンプトを備えたアカデミック タスク指向の VQA データを追加することで、11 のシステム全体で最先端を達成する強力なベースラインを確立します。
ベンチマーク。
最後の 13B チェックポイントでは、公開されているわずか 120 万のデータを使用し、単一の 8-A100 ノードで完全なトレーニングを約 1 日で完了します。
これにより、最先端の LMM 研究がより身近になることを願っています。
コードとモデルは公開されます。

要約(オリジナル)

Large multimodal models (LMM) have recently shown encouraging progress with visual instruction tuning. In this note, we show that the fully-connected vision-language cross-modal connector in LLaVA is surprisingly powerful and data-efficient. With simple modifications to LLaVA, namely, using CLIP-ViT-L-336px with an MLP projection and adding academic-task-oriented VQA data with simple response formatting prompts, we establish stronger baselines that achieve state-of-the-art across 11 benchmarks. Our final 13B checkpoint uses merely 1.2M publicly available data, and finishes full training in ~1 day on a single 8-A100 node. We hope this can make state-of-the-art LMM research more accessible. Code and model will be publicly available.

arxiv情報

著者 Haotian Liu,Chunyuan Li,Yuheng Li,Yong Jae Lee
発行日 2023-10-05 17:59:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG パーマリンク