Fine-Grained Visual Prompting

要約

CLIP などの視覚言語モデル (VLM) は、画像レベルの視覚認識において優れたゼロショット転送機能を実証しています。
ただし、これらのモデルは、正確な位置特定と認識が必要なインスタンスレベルのタスクではパフォーマンスが制限されています。
これまでの研究では、カラフルなボックスや円などの視覚的なプロンプトを組み込むことで、モデルが関心のあるオブジェクトを認識する能力を向上できることが示唆されています。
それにもかかわらず、言語によるプロンプトと比較すると、視覚的なプロンプトのデザインはほとんど検討されていません。
カラフルなボックスや円などの粗い視覚的手がかりを使用する既存のアプローチでは、無関係でノイズの多いピクセルが含まれるため、最適なパフォーマンスが得られないことがよくあります。
この論文では、セグメンテーション マスクやそのバリエーションなど、よりきめの細かいマーキングを調査することで、視覚的なプロンプトのデザインを注意深く研究します。
さらに、ジェネラリスト セグメンテーション モデルから取得したピクセル レベルの注釈を利用して、きめ細かい視覚的プロンプトを実現する、新しいゼロショット フレームワークを導入します。
その結果、私たちの調査により、ブラー リバース マスクと呼ばれる、ターゲット マスクの外側にブラーを直接適用すると、並外れた効果が得られることが明らかになりました。
この提案されたプロンプト戦略は、正確なマスクの注釈を活用して、ターゲットと周囲の背景の間の空間的一貫性を維持しながら、関係の弱い領域への焦点を減らします。
当社のファイングレイン ビジュアル プロンプティング (FGVP) は、RefCOCO、RefCOCO+、および RefCOCOg ベンチマークで参照式のゼロショット理解において優れたパフォーマンスを示しています。
従来の方法よりも平均 3.0% ~ 4.6% のマージンで優れており、RefCOCO+ testA サブセットでは最大 12.5% の改善が見られます。
PACO データセットに対して行われた部品検出実験により、既存の視覚的プロンプト技術に対する FGVP の優位性がさらに検証されました。
コードとモデルは利用可能になります。

要約(オリジナル)

Vision-Language Models (VLMs), such as CLIP, have demonstrated impressive zero-shot transfer capabilities in image-level visual perception. However, these models have shown limited performance in instance-level tasks that demand precise localization and recognition. Previous works have suggested that incorporating visual prompts, such as colorful boxes or circles, can improve the ability of models to recognize objects of interest. Nonetheless, compared to language prompting, visual prompting designs are rarely explored. Existing approaches, which employ coarse visual cues such as colorful boxes or circles, often result in sub-optimal performance due to the inclusion of irrelevant and noisy pixels. In this paper, we carefully study the visual prompting designs by exploring more fine-grained markings, such as segmentation masks and their variations. In addition, we introduce a new zero-shot framework that leverages pixel-level annotations acquired from a generalist segmentation model for fine-grained visual prompting. Consequently, our investigation reveals that a straightforward application of blur outside the target mask, referred to as the Blur Reverse Mask, exhibits exceptional effectiveness. This proposed prompting strategy leverages the precise mask annotations to reduce focus on weakly related regions while retaining spatial coherence between the target and the surrounding background. Our Fine-Grained Visual Prompting (FGVP) demonstrates superior performance in zero-shot comprehension of referring expressions on the RefCOCO, RefCOCO+, and RefCOCOg benchmarks. It outperforms prior methods by an average margin of 3.0% to 4.6%, with a maximum improvement of 12.5% on the RefCOCO+ testA subset. The part detection experiments conducted on the PACO dataset further validate the preponderance of FGVP over existing visual prompting techniques. Code and models will be made available.

arxiv情報

著者 Lingfeng Yang,Yueze Wang,Xiang Li,Xinlong Wang,Jian Yang
発行日 2023-06-07 11:39:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク