GPT-4V(ision) as a Generalist Evaluator for Vision-Language Tasks

要約

視覚言語タスクを自動的に評価することは、特に人間の判断を反映する場合、きめ細かい詳細を考慮することに限界があるため、困難です。
GPT-4V はさまざまなマルチモーダル タスクで有望な結果を示していますが、これらのタスクのジェネラリスト評価ツールとして GPT-4V を活用することはまだ体系的に検討されていません。
私たちは評価目的で GPT-4V の機能を包括的に検証し、基本的な画像からテキストおよびテキストから画像への合成から、高レベルの画像から画像への変換、および複数画像からテキストへの位置合わせに至るまでのタスクに取り組みます。
GPT-4Vを用いた単一回答採点と一対比較の2つの評価方法を採用しています。
特に、GPT-4V はさまざまなタスクや評価方法にわたって人間との有望な一致を示しており、評価者としてのマルチモーダル LLM の計り知れない可能性を示しています。
制限された視覚的な明瞭さのグレーディングや現実世界の複雑な推論などの制限があるにもかかわらず、詳細な説明が充実した人間に合わせたスコアを提供するその機能は、汎用の自動評価器として有望です。

要約(オリジナル)

Automatically evaluating vision-language tasks is challenging, especially when it comes to reflecting human judgments due to limitations in accounting for fine-grained details. Although GPT-4V has shown promising results in various multi-modal tasks, leveraging GPT-4V as a generalist evaluator for these tasks has not yet been systematically explored. We comprehensively validate GPT-4V’s capabilities for evaluation purposes, addressing tasks ranging from foundational image-to-text and text-to-image synthesis to high-level image-to-image translations and multi-images to text alignment. We employ two evaluation methods, single-answer grading and pairwise comparison, using GPT-4V. Notably, GPT-4V shows promising agreement with humans across various tasks and evaluation methods, demonstrating immense potential for multi-modal LLMs as evaluators. Despite limitations like restricted visual clarity grading and real-world complex reasoning, its ability to provide human-aligned scores enriched with detailed explanations is promising for universal automatic evaluator.

arxiv情報

著者 Xinlu Zhang,Yujie Lu,Weizhi Wang,An Yan,Jun Yan,Lianke Qin,Heng Wang,Xifeng Yan,William Yang Wang,Linda Ruth Petzold
発行日 2023-11-02 16:11:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク