Scaffolding Coordinates to Promote Vision-Language Coordination in Large Multi-Modal Models

要約

最先端の大規模マルチモーダル モデル (LMM) は、視覚言語タスクにおいて優れた機能を実証しています。
LMM の高度な機能にもかかわらず、複数のレベルの視覚情報を使用した複雑な推論が必要な困難なシナリオでは、LMM のパフォーマンスは依然として制限されています。
LMM 用の既存のプロンプト手法は、テキスト推論の改善または画像前処理ツールの活用に焦点を当てており、LMM で視覚と言語の調整を促進するための単純かつ一般的な視覚的プロンプト スキームが欠けています。
この研究では、視覚と言語の調整を促進するために足場を調整する足場プロンプトを提案します。
具体的には、Scaffold は視覚情報アンカーとして画像内にドット マトリックスをオーバーレイし、テキストの位置参照として多次元座標を利用します。
広範囲にわたる困難な視覚言語タスクに関する広範な実験により、テキストによる CoT プロンプトを備えた GPT-4V に対する Scaffold の優位性が実証されました。
私たちのコードは https://github.com/leixy20/Scaffold でリリースされています。

要約(オリジナル)

State-of-the-art Large Multi-Modal Models (LMMs) have demonstrated exceptional capabilities in vision-language tasks. Despite their advanced functionalities, the performances of LMMs are still limited in challenging scenarios that require complex reasoning with multiple levels of visual information. Existing prompting techniques for LMMs focus on either improving textual reasoning or leveraging tools for image preprocessing, lacking a simple and general visual prompting scheme to promote vision-language coordination in LMMs. In this work, we propose Scaffold prompting that scaffolds coordinates to promote vision-language coordination. Specifically, Scaffold overlays a dot matrix within the image as visual information anchors and leverages multi-dimensional coordinates as textual positional references. Extensive experiments on a wide range of challenging vision-language tasks demonstrate the superiority of Scaffold over GPT-4V with the textual CoT prompting. Our code is released in https://github.com/leixy20/Scaffold.

arxiv情報

著者 Xuanyu Lei,Zonghan Yang,Xinrui Chen,Peng Li,Yang Liu
発行日 2024-02-19 11:23:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク