要約
大規模言語モデル (LLM) の進歩により、視覚言語モデル (VLM) は新たなレベルの洗練に達し、複雑な認知および推論タスクの実行において顕著な能力を示しています。
しかし、タスク固有のパフォーマンスを測定するために主に厳格な手作りのデータセットに依存している既存の評価ベンチマークは、これらの擬人化が進むモデルと人間の知能との整合性を評価する際に大きな制限に直面しています。
この研究では、自動ベンチを介して制限に対処します。自動ベンチは、熟練したアライナーとしての LLM を掘り下げ、自動データ キュレーションと評価を通じて VLM と人間の知性および価値の間の整合性を測定します。
具体的には、データキュレーションの場合、Auto-Bench は LLM (例: GPT-4) を利用して、視覚的な記号表現 (例: キャプション、オブジェクトの位置、インスタンスの関係など) のプロンプトを介して質問、回答、推論のトリプレットの膨大なセットを自動的に生成します。
。)。
LLM に組み込まれた広範な世界の知識により、厳選されたデータは人間の意図と厳密に一致します。
このパイプラインを通じて、人間によって検証された合計 28.5,000 個とフィルタリングされていない 3,504,000 個の質問、回答、推論のトリプレットが厳選され、4 つの主要な能力と 16 のサブ能力をカバーしています。
その後、GPT-3.5 などの LLM を審査員として採用し、定量的および定性的な自動評価を実装して、VLM の包括的な評価を促進します。
私たちの検証結果では、LLM が評価データのキュレーションとモデル評価の両方に熟練しており、平均 85% の一致率を達成していることが明らかになりました。
私たちは Auto-Bench を、進化する洗練された VLM を評価するための柔軟でスケーラブルな包括的なベンチマークとして構想しています。
要約(オリジナル)
With the advancements in Large Language Models (LLMs), Vision-Language Models (VLMs) have reached a new level of sophistication, showing notable competence in executing intricate cognition and reasoning tasks. However, existing evaluation benchmarks, primarily relying on rigid, hand-crafted datasets to measure task-specific performance, face significant limitations in assessing the alignment of these increasingly anthropomorphic models with human intelligence. In this work, we address the limitations via Auto-Bench, which delves into exploring LLMs as proficient aligners, measuring the alignment between VLMs and human intelligence and value through automatic data curation and assessment. Specifically, for data curation, Auto-Bench utilizes LLMs (e.g., GPT-4) to automatically generate a vast set of question-answer-reasoning triplets via prompting on visual symbolic representations (e.g., captions, object locations, instance relationships, and etc.). The curated data closely matches human intent, owing to the extensive world knowledge embedded in LLMs. Through this pipeline, a total of 28.5K human-verified and 3,504K unfiltered question-answer-reasoning triplets have been curated, covering 4 primary abilities and 16 sub-abilities. We subsequently engage LLMs like GPT-3.5 to serve as judges, implementing the quantitative and qualitative automated assessments to facilitate a comprehensive evaluation of VLMs. Our validation results reveal that LLMs are proficient in both evaluation data curation and model assessment, achieving an average agreement rate of 85%. We envision Auto-Bench as a flexible, scalable, and comprehensive benchmark for evaluating the evolving sophisticated VLMs.
arxiv情報
著者 | Yuanfeng Ji,Chongjian Ge,Weikai Kong,Enze Xie,Zhengying Liu,Zhengguo Li,Ping Luo |
発行日 | 2023-11-24 16:12:05+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google