Robin: a Suite of Multi-Scale Vision-Language Models and the CHIRP Evaluation Benchmark

要約

過去数年間における視覚言語モデル (VLM) の急増により、厳密かつ包括的な評価方法とベンチマークが必要になっています。
この研究では、自動化されたメトリクス、AI ベースの評価、さまざまなタスクにわたる人間による評価など、既存の VLM 評価手法を分析します。
まず、複数のスケールでラージ言語モデル (LLM) とビジョン エンコーダー (VE) を組み合わせて構築した新しい VLM スイートである Robin を紹介し、Robin を使用してスケール間の現在の評価アプローチの欠点を特定します。
次に、特定された制限を克服するために、より堅牢で完全な VLM 評価のために開発された新しい長い形式の応答ベンチマークである CHIRP を導入します。
再現性を高め、VLM 研究を進めるために、Robin トレーニング コード、モデル スイート、CHIRP ベンチマークへのオープン アクセスを提供します。

要約(オリジナル)

The proliferation of Vision-Language Models (VLMs) in the past several years calls for rigorous and comprehensive evaluation methods and benchmarks. This work analyzes existing VLM evaluation techniques, including automated metrics, AI-based assessments, and human evaluations across diverse tasks. We first introduce Robin – a novel suite of VLMs that we built by combining Large Language Models (LLMs) and Vision Encoders (VEs) at multiple scales, and use Robin to identify shortcomings of current evaluation approaches across scales. Next, to overcome the identified limitations, we introduce CHIRP – a new long form response benchmark we developed for more robust and complete VLM evaluation. We provide open access to the Robin training code, model suite, and CHIRP benchmark to promote reproducibility and advance VLM research.

arxiv情報

著者 Alexis Roger,Prateek Humane,Daniel Z. Kaplan,Kshitij Gupta,Qi Sun,George Adamopoulos,Jonathan Siu Chi Lim,Quentin Anthony,Edwin Fennell,Irina Rish
発行日 2025-01-16 17:08:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク