HARIS: Human-Like Attention for Reference Image Segmentation

要約

参照画像セグメンテーション (RIS) は、言語表現に対応する特定の領域を特定することを目的としています。
既存の方法には、さまざまなモダリティの機能が \emph{ボトムアップ} 方式で組み込まれています。
このデザインでは、不必要な画像とテキストのペアが含まれる可能性があり、不正確なセグメンテーション マスクが生成されます。
この論文では、Human-Like Attendant メカニズムを導入し、Parameter-Efficient Fine-tuning (PEFT) フレームワークを使用する HARIS と呼ばれる参照画像セグメンテーション手法を提案します。
具体的には、Human-Like Attendance はマルチモーダル機能から \emph{フィードバック} 信号を受け取り、ネットワークを特定のオブジェクトに集中させ、無関係な画像とテキストのペアを破棄します。
さらに、事前トレーニングされたエンコーダーのゼロショット機能を維持するために PEFT フレームワークを導入します。
広く使用されている 3 つの RIS ベンチマークと PhraseCut データセットに関する広範な実験により、私たちの手法が最先端のパフォーマンスと優れたゼロショット能力を達成していることが実証されました。

要約(オリジナル)

Referring image segmentation (RIS) aims to locate the particular region corresponding to the language expression. Existing methods incorporate features from different modalities in a \emph{bottom-up} manner. This design may get some unnecessary image-text pairs, which leads to an inaccurate segmentation mask. In this paper, we propose a referring image segmentation method called HARIS, which introduces the Human-Like Attention mechanism and uses the parameter-efficient fine-tuning (PEFT) framework. To be specific, the Human-Like Attention gets a \emph{feedback} signal from multi-modal features, which makes the network center on the specific objects and discard the irrelevant image-text pairs. Besides, we introduce the PEFT framework to preserve the zero-shot ability of pre-trained encoders. Extensive experiments on three widely used RIS benchmarks and the PhraseCut dataset demonstrate that our method achieves state-of-the-art performance and great zero-shot ability.

arxiv情報

著者 Mengxi Zhang,Heqing Lian,Yiming Liu,Kang Rong,Jie Chen
発行日 2024-05-17 11:29:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク