LGD: Leveraging Generative Descriptions for Zero-Shot Referring Image Segmentation

要約

ゼロショット参照画像セグメンテーションは、視覚的およびテキストのモダリティ全体にわたってセマンティクスを調整および一致させるという主要な課題とともに、参照式に基づいてターゲット領域を見つけてセグメントすることを目的としています。
以前の作品は、ビジョン言語モデルを利用して、地域テキストマッチングのために提案ネットワークをマスクすることにより、この課題に対処します。
ただし、このパラダイムは、自由形式を参照する式の固有の曖昧さと多様性のために、ターゲットのローカリゼーションが誤っていない場合があります。
この問題を緩和するために、マルチモーダルの大手言語モデルの高度な言語生成機能を利用してビジョン言語モデルの領域マッチングパフォーマンスを強化するLGD(生成記述の活用)を提示します。
具体的には、最初に2種類のプロンプト、属性プロンプトと周囲のプロンプトを設計し、参照オブジェクトの重要な属性と周囲のオブジェクトの詳細に関連する記述をそれぞれ生成する際に、それぞれ属性記述と周囲の説明と呼ばれる記述を生成する際にマルチモーダルの大規模な言語モデルをガイドします。
第二に、インスタンスレベルの視覚的特徴とテキスト機能の類似性を評価するために、3つの視覚テキストマッチングスコアが導入され、参照式に最も関連するマスクを決定します。
提案された方法は、3つのパブリックデータセットRefcoco、Refcoco+、およびRefcocogで新しい最先端のパフォーマンスを達成し、以前の方法と比較して、OIOUで9.97%、MIOUで11.29%の最大改善があります。

要約(オリジナル)

Zero-shot referring image segmentation aims to locate and segment the target region based on a referring expression, with the primary challenge of aligning and matching semantics across visual and textual modalities without training. Previous works address this challenge by utilizing Vision-Language Models and mask proposal networks for region-text matching. However, this paradigm may lead to incorrect target localization due to the inherent ambiguity and diversity of free-form referring expressions. To alleviate this issue, we present LGD (Leveraging Generative Descriptions), a framework that utilizes the advanced language generation capabilities of Multi-Modal Large Language Models to enhance region-text matching performance in Vision-Language Models. Specifically, we first design two kinds of prompts, the attribute prompt and the surrounding prompt, to guide the Multi-Modal Large Language Models in generating descriptions related to the crucial attributes of the referent object and the details of surrounding objects, referred to as attribute description and surrounding description, respectively. Secondly, three visual-text matching scores are introduced to evaluate the similarity between instance-level visual features and textual features, which determines the mask most associated with the referring expression. The proposed method achieves new state-of-the-art performance on three public datasets RefCOCO, RefCOCO+ and RefCOCOg, with maximum improvements of 9.97% in oIoU and 11.29% in mIoU compared to previous methods.

arxiv情報

著者 Jiachen Li,Qing Xie,Renshu Gu,Jinyu Xu,Yongjian Liu,Xiaohan Yu
発行日 2025-05-01 14:14:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク