要約
Large Vision-Language Model (LVLM) の急速な進歩は、計り知れない可能性を示しています。
これらのモデルは、抽象的な視覚タスクに取り組む能力がますます高まっています。
幾何学的構造、特に固有の柔軟性と複雑さを備えたグラフは、これらのモデルの予測機能を評価するための優れたベンチマークとして機能します。
人間の観察者は視覚的な微妙な詳細を容易に識別し、正確な分析を実行できますが、私たちの調査により、最先端の LVLM は特定の視覚的なグラフのシナリオにおいて、特にスタイルの変化に直面した場合に一貫した制限を示すことが明らかになりました。
これらの課題に応えて、7 つの異なるタスク カテゴリ (検出、分類、セグメンテーション、パターン認識、リンク予測、推論、マッチング) のグラフ イメージを生成できるカスタマイズ可能なベンチマーク ジェネレーターである VisGraphVar (Visual Graph Variability) を導入します。
個々の LVLM の長所と限界を評価します。
VisGraphVar を使用して 990 個のグラフ イメージを作成し、2 つの異なるプロンプト戦略、つまりゼロショットと思考の連鎖を採用して 6 つの LVLM を評価します。
この調査結果は、画像の視覚的属性 (ノードのラベル付けやレイアウトなど) の変動や、ノードの重なりなどの視覚的欠陥を意図的に組み込むことが、モデルのパフォーマンスに大きく影響することを示しています。
この研究は、単なる推論を超えて、グラフ関連のタスク全体にわたる包括的な評価の重要性を強調しています。
VisGraphVar は、高度なビジュアル グラフ分析を実行できる、より信頼性が高く堅牢なシステムの開発をガイドするための貴重な洞察を提供します。
要約(オリジナル)
The fast advancement of Large Vision-Language Models (LVLMs) has shown immense potential. These models are increasingly capable of tackling abstract visual tasks. Geometric structures, particularly graphs with their inherent flexibility and complexity, serve as an excellent benchmark for evaluating these models’ predictive capabilities. While human observers can readily identify subtle visual details and perform accurate analyses, our investigation reveals that state-of-the-art LVLMs exhibit consistent limitations in specific visual graph scenarios, especially when confronted with stylistic variations. In response to these challenges, we introduce VisGraphVar (Visual Graph Variability), a customizable benchmark generator able to produce graph images for seven distinct task categories (detection, classification, segmentation, pattern recognition, link prediction, reasoning, matching), designed to systematically evaluate the strengths and limitations of individual LVLMs. We use VisGraphVar to produce 990 graph images and evaluate six LVLMs, employing two distinct prompting strategies, namely zero-shot and chain-of-thought. The findings demonstrate that variations in visual attributes of images (e.g., node labeling and layout) and the deliberate inclusion of visual imperfections, such as overlapping nodes, significantly affect model performance. This research emphasizes the importance of a comprehensive evaluation across graph-related tasks, extending beyond reasoning alone. VisGraphVar offers valuable insights to guide the development of more reliable and robust systems capable of performing advanced visual graph analysis.
arxiv情報
著者 | Camilo Chacón Sartori,Christian Blum,Filippo Bistaffa |
発行日 | 2024-11-22 10:10:53+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google