Set-of-Mark Prompting Unleashes Extraordinary Visual Grounding in GPT-4V

要約

我々は、GPT-4V などの大規模マルチモーダル モデル (LMM) の視覚的グラウンディング能力を解き放つ、新しい視覚的プロンプト手法である Set-of-Mark (SoM) を紹介します。
図 1 (右) に示すように、SAM などの既製のインタラクティブ セグメンテーション モデルを使用して、画像をさまざまな粒度レベルで領域に分割し、これらの領域を一連のマーク (英数字、文字、記号など) でオーバーレイします。
マスク、箱。
GPT-4V は、マークされた画像を入力として使用して、視覚的な根拠を必要とする質問に答えることができます。
私たちは包括的な実証研究を実施して、広範囲にわたるきめ細かい視覚やマルチモーダルなタスクに対する SoM の有効性を検証します。
たとえば、私たちの実験では、SoM を備えた GPT-4V が、ゼロショット設定で RefCOCOg 上の完全に微調整された最先端の参照セグメンテーション モデルよりも優れていることが示されています。

要約(オリジナル)

We present Set-of-Mark (SoM), a new visual prompting method, to unleash the visual grounding abilities of large multimodal models (LMMs), such as GPT-4V. As illustrated in Fig. 1 (right), we employ off-the-shelf interactive segmentation models, such as SAM, to partition an image into regions at different levels of granularity, and overlay these regions with a set of marks e.g., alphanumerics, masks, boxes. Using the marked image as input, GPT-4V can answer the questions that require visual grounding. We perform a comprehensive empirical study to validate the effectiveness of SoM on a wide range of fine-grained vision and multimodal tasks. For example, our experiments show that GPT-4V with SoM outperforms the state-of-the-art fully-finetuned referring segmentation model on RefCOCOg in a zero-shot setting.

arxiv情報

著者 Jianwei Yang,Hao Zhang,Feng Li,Xueyan Zou,Chunyuan Li,Jianfeng Gao
発行日 2023-10-17 17:51:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.HC パーマリンク