Prismatic VLMs: Investigating the Design Space of Visually-Conditioned Language Models

要約

視覚条件付き言語モデル (VLM) は、視覚的な対話、シーンの理解、ロボットのタスク計画などのアプリケーションでの採用が増加しています。
この採用により、LLaVa、InstructBLIP、PaLI-3 などの豊富な新しいモデルが誕生しました。
新しいリリースが大量にあるにもかかわらず、画像の前処理、アーキテクチャ、最適化に関する重要な設計上の決定が十分に検討されていないため、どのような要素がモデルのパフォーマンスを説明するのかを理解することが困難になっており、客観的で一貫した評価が欠如しているため、この課題はさらに複雑になっています。
これらのギャップに対処するために、私たちはまず、視覚的な質問への応答、言語からのオブジェクトの位置特定、幻覚などの特性を調査する対象を絞った課題セットにわたる一連の標準化された評価をコンパイルします。
VLM の機能に対する調整されたきめ細かい洞察を提供する評価。
次に、事前トレーニングされた視覚表現や、基本言語モデルと命令調整言語モデルの使用のトレードオフの定量化など、主要な設計軸に沿って VLM を厳密に調査します。
私たちは分析を 3 つのリソースの貢献と組み合わせます: (1) VLM を評価するための統合フレームワーク、(2) VLM トレーニング用に最適化された柔軟なコード、(3) 7 ~ 13B スケールの VLM ファミリを含むすべてのモデルのチェックポイント
これは、オープンソース VLM の最先端である InstructBLIP および LLaVa v1.5 を厳密に上回ります。

要約(オリジナル)

Visually-conditioned language models (VLMs) have seen growing adoption in applications such as visual dialogue, scene understanding, and robotic task planning; adoption that has fueled a wealth of new models such as LLaVa, InstructBLIP, and PaLI-3. Despite the volume of new releases, key design decisions around image preprocessing, architecture, and optimization are under-explored, making it challenging to understand what factors account for model performance $-$ a challenge further complicated by the lack of objective, consistent evaluations. To address these gaps, we first compile a suite of standardized evaluations spanning visual question answering, object localization from language, and targeted challenge sets that probe properties such as hallucination; evaluations that provide calibrated, fine-grained insight into a VLM’s capabilities. Second, we rigorously investigate VLMs along key design axes, including pretrained visual representations and quantifying the tradeoffs of using base vs. instruct-tuned language models, amongst others. We couple our analysis with three resource contributions: (1) a unified framework for evaluating VLMs, (2) optimized, flexible code for VLM training, and (3) checkpoints for all models, including a family of VLMs at the 7-13B scale that strictly outperform InstructBLIP and LLaVa v1.5, the state-of-the-art in open-source VLMs.

arxiv情報

著者 Siddharth Karamcheti,Suraj Nair,Ashwin Balakrishna,Percy Liang,Thomas Kollar,Dorsa Sadigh
発行日 2024-02-12 18:21:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG パーマリンク