Improving Referring Image Segmentation using Vision-Aware Text Features

要約

画像セグメンテーションの参照は、自然言語記述に基づいてピクセル単位のセグメンテーション マスクを生成することを含む、困難なタスクです。
既存の方法は、主に視覚的特徴に依存してセグメンテーション マスクを生成し、テキスト特徴をサポート コンポーネントとして扱いました。
この視覚機能への過度の依存は、特にテキスト プロンプトがあいまいまたはコンテキストに依存する複雑なシナリオでは、最適とは言えない結果を招く可能性があります。
これらの課題を克服するために、ビジョン認識テキスト機能を使用してオブジェクトとコンテキストの理解を強化することで参照画像のセグメンテーションを改善する新しいフレームワーク VATEX を紹介します。
私たちの方法では、CLIP を使用して、オブジェクト中心のビジュアル ヒートマップとテキストの説明を統合する CLIP Prior を導出します。これは、セグメンテーション タスクの DETR ベースのアーキテクチャの最初のクエリとして使用できます。
さらに、画像内のインスタンスを記述する方法が複数あることを観察することで、2 つのコンポーネントによって同じ視覚入力を参照するテキスト バリエーション間の特徴の類似性を強化します。テキストの埋め込みを視覚認識型のテキスト特徴に変換する新しいコンテキスト マルチモーダル デコーダーです。
そして、意味一貫性制約は、画像から得られる文脈理解に基づいて言語表現の一貫性と一貫性をさらに確保します。
私たちの方法は、3 つのベンチマーク データセット RefCOCO、RefCOCO+、G-Ref で大幅なパフォーマンスの向上を実現します。
コードは https://nero1342.github.io/VATEX\_RIS から入手できます。

要約(オリジナル)

Referring image segmentation is a challenging task that involves generating pixel-wise segmentation masks based on natural language descriptions. Existing methods have relied mostly on visual features to generate the segmentation masks while treating text features as supporting components. This over-reliance on visual features can lead to suboptimal results, especially in complex scenarios where text prompts are ambiguous or context-dependent. To overcome these challenges, we present a novel framework VATEX to improve referring image segmentation by enhancing object and context understanding with Vision-Aware Text Feature. Our method involves using CLIP to derive a CLIP Prior that integrates an object-centric visual heatmap with text description, which can be used as the initial query in DETR-based architecture for the segmentation task. Furthermore, by observing that there are multiple ways to describe an instance in an image, we enforce feature similarity between text variations referring to the same visual input by two components: a novel Contextual Multimodal Decoder that turns text embeddings into vision-aware text features, and a Meaning Consistency Constraint to ensure further the coherent and consistent interpretation of language expressions with the context understanding obtained from the image. Our method achieves a significant performance improvement on three benchmark datasets RefCOCO, RefCOCO+ and G-Ref. Code is available at: https://nero1342.github.io/VATEX\_RIS.

arxiv情報

著者 Hai Nguyen-Truong,E-Ro Nguyen,Tuan-Anh Vu,Minh-Triet Tran,Binh-Son Hua,Sai-Kit Yeung
発行日 2024-04-12 16:38:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク