Rendering Graphs for Graph Reasoning in Multimodal Large Language Models

要約

大規模言語モデル (LLM) は、ロボットによる計画、ナレッジ グラフの完成、常識的な推論など、グラフ構造を備えたさまざまなタスクに使用されることが増えています。
LLM はグラフ情報をテキスト形式で理解できますが、人間が構造情報を理解し、グラフ推論を行うための直感的な方法である豊富な視覚モダリティを見落としています。
グラフ構造を視覚的なイメージ (つまり、視覚的なグラフ) として表現することの潜在的な利点と機能はまだ解明されていません。
このペーパーでは、視覚情報をグラフ推論タスクに組み込む最初のステップを踏み、各サンプルがタプル (グラフ、画像、テキスト記述) である新しいベンチマーク GITQA を提案します。
私たちは、最先端のマルチモーダル LLM を使用して、GITQA ベンチマークに関する広範な実験を実施しています。
グラフ推論タスクの結果は、テキスト情報と視覚情報を組み合わせると、1 つのモダリティを単独で使用するよりもパフォーマンスが向上することを示しています。
さらに、トレーニング セット (GITA と呼ばれる) で微調整された LLaVA-7B/13B モデルは、クローズドソース モデル GPT-4(V) よりも高い精度を実現します。
また、グラフ推論における拡張の効果も研究します。

要約(オリジナル)

Large Language Models (LLMs) are increasingly used for various tasks with graph structures, such as robotic planning, knowledge graph completion, and common-sense reasoning. Though LLMs can comprehend graph information in a textual format, they overlook the rich visual modality, which is an intuitive way for humans to comprehend structural information and conduct graph reasoning. The potential benefits and capabilities of representing graph structures as visual images (i.e., visual graph) is still unexplored. In this paper, we take the first step in incorporating visual information into graph reasoning tasks and propose a new benchmark GITQA, where each sample is a tuple (graph, image, textual description). We conduct extensive experiments on the GITQA benchmark using state-of-the-art multimodal LLMs. Results on graph reasoning tasks show that combining textual and visual information together performs better than using one modality alone. Moreover, the LLaVA-7B/13B models finetuned on the training set (referred to as GITA), achieve higher accuracy than the closed-source model GPT-4(V). We also study the effects of augmentations in graph reasoning.

arxiv情報

著者 Yanbin Wei,Shuai Fu,Weisen Jiang,James T. Kwok,Yu Zhang
発行日 2024-02-26 07:33:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク