要約
我々は、GPT-4V などの大規模マルチモーダル モデル (LMM) の視覚的グラウンディング能力を解き放つ、新しい視覚的プロンプト手法である Set-of-Mark (SoM) を紹介します。
図 1 (右) に示すように、SAM などの既製のインタラクティブ セグメンテーション モデルを使用して、画像をさまざまな粒度レベルで領域に分割し、これらの領域を一連のマーク (英数字、文字、記号など) でオーバーレイします。
マスク、箱。
GPT-4V は、マークされた画像を入力として使用して、視覚的な根拠を必要とする質問に答えることができます。
私たちは包括的な実証研究を実施して、広範囲にわたるきめ細かい視覚やマルチモーダルなタスクに対する SoM の有効性を検証します。
たとえば、私たちの実験では、SoM を備えた GPT-4V が、ゼロショット設定で RefCOCOg 上の完全に微調整された最先端の参照セグメンテーション モデルよりも優れていることが示されています。
要約(オリジナル)
We present Set-of-Mark (SoM), a new visual prompting method, to unleash the visual grounding abilities of large multimodal models (LMMs), such as GPT-4V. As illustrated in Fig. 1 (right), we employ off-the-shelf interactive segmentation models, such as SAM, to partition an image into regions at different levels of granularity, and overlay these regions with a set of marks e.g., alphanumerics, masks, boxes. Using the marked image as input, GPT-4V can answer the questions that require visual grounding. We perform a comprehensive empirical study to validate the effectiveness of SoM on a wide range of fine-grained vision and multimodal tasks. For example, our experiments show that GPT-4V with SoM outperforms the state-of-the-art fully-finetuned referring segmentation model on RefCOCOg in a zero-shot setting.
arxiv情報
著者 | Jianwei Yang,Hao Zhang,Feng Li,Xueyan Zou,Chunyuan Li,Jianfeng Gao |
発行日 | 2023-10-17 17:51:31+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google