要約
マルチモーダル大規模言語モデル (MLLM) の急増により、命令への追従と推論における顕著な新機能が与えられ、視覚的推論の分野が大幅に進歩しました。
ただし、ほとんどの MLLM は、非可逆画像のトークン化という制約があるため、特に高解像度画像において、テキストやオブジェクトの詳細を包括的にキャプチャすることができません。
これに対処するために、MLLM における推論のプラグアンドプレイ基盤のための新しいフレームワークである P2G を提案します。
具体的には、P2G は MLLM のツール利用の可能性を活用して、エキスパート エージェントを採用して、画像の重要なビジュアルおよびテキスト オブジェクトへのオンザフライ グラウンディングを実現し、マルチモーダル プロンプトを介して意図的な推論を実現します。
さらに、困難な高解像度画像内のオブジェクト間の関係とテキストを理解する MLLM の能力を評価することを目的としたベンチマークである P2GB を作成します。
視覚的推論タスクに関する包括的な実験により、P2G の優位性が実証されました。
注目すべきは、P2G が 7B バックボーンを備えた P2GB で GPT-4V と同等のパフォーマンスを達成したことです。
私たちの研究は、推論のプラグアンドプレイ基盤の可能性を強調し、モデルのスケーリングを超えた有望な代替手段を開きます。
要約(オリジナル)
The surge of Multimodal Large Language Models (MLLMs), given their prominent emergent capabilities in instruction following and reasoning, has greatly advanced the field of visual reasoning. However, constrained by their non-lossless image tokenization, most MLLMs fall short of comprehensively capturing details of text and objects, especially in high-resolution images. To address this, we propose P2G, a novel framework for plug-and-play grounding of reasoning in MLLMs. Specifically, P2G exploits the tool-usage potential of MLLMs to employ expert agents to achieve on-the-fly grounding to critical visual and textual objects of image, thus achieving deliberate reasoning via multimodal prompting. We further create P2GB, a benchmark aimed at assessing MLLMs’ ability to understand inter-object relationships and text in challenging high-resolution images. Comprehensive experiments on visual reasoning tasks demonstrate the superiority of P2G. Noteworthy, P2G achieved comparable performance with GPT-4V on P2GB, with a 7B backbone. Our work highlights the potential of plug-and-play grounding of reasoning and opens up a promising alternative beyond model scaling.
arxiv情報
著者 | Jiaxing Chen,Yuxuan Liu,Dehu Li,Xiang An,Ziyong Feng,Yongle Zhao,Yin Xie |
発行日 | 2024-03-28 11:26:30+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google