要約
視覚言語モデル(VLM)の最近の進歩により、視覚化されたグラフデータの解釈に有望な機能が示されており、従来のグラフニューラルネットワーク(GNNS)を超えたグラフ構造の推論の新しい視点を提供します。
ただし、既存の研究は主に単一のグラフの推論に焦点を当てており、マルチグラフ共同推論の重要な課題を未定の困難に残しています。
この作業では、VLMのマルチグラフの推論能力を評価および強化するために設計された最初の包括的なベンチマークを紹介します。
当社のベンチマークは、4つの一般的なグラフタイプの知識グラフ、フローチャート、マインドマップ、ルートマップをカバーし、複雑さの増加タスクを備えた均質および異種グラフグループの両方をサポートします。
グラフの解析、推論の一貫性、および命令に応じた精度を評価する多次元スコアリングフレームワークの下で、いくつかの最先端のVLMを評価します。
さらに、複数のオープンソースモデルを微調整し、一貫した改善を観察し、データセットの有効性を確認します。
この作業は、マルチグラフの理解を深めるための原則的なステップを提供し、クロスモーダルグラフインテリジェンスの新しい機会を明らかにします。
要約(オリジナル)
Recent advances in Vision-Language Models (VLMs) have shown promising capabilities in interpreting visualized graph data, offering a new perspective for graph-structured reasoning beyond traditional Graph Neural Networks (GNNs). However, existing studies focus primarily on single-graph reasoning, leaving the critical challenge of multi-graph joint reasoning underexplored. In this work, we introduce the first comprehensive benchmark designed to evaluate and enhance the multi-graph reasoning abilities of VLMs. Our benchmark covers four common graph types-knowledge graphs, flowcharts, mind maps, and route maps-and supports both homogeneous and heterogeneous graph groupings with tasks of increasing complexity. We evaluate several state-of-the-art VLMs under a multi-dimensional scoring framework that assesses graph parsing, reasoning consistency, and instruction-following accuracy. Additionally, we fine-tune multiple open-source models and observe consistent improvements, confirming the effectiveness of our dataset. This work provides a principled step toward advancing multi-graph understanding and reveals new opportunities for cross-modal graph intelligence.
arxiv情報
著者 | Ruizhou Li,Haiyun Jiang |
発行日 | 2025-05-26 16:31:06+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google