Instance-Aware Generalized Referring Expression Segmentation

要約

Generalized Referring Expression Segmentation (GRES) に関する最近の研究では、複数の異なるオブジェクトを参照する複雑な式の処理に苦労しています。
これは、これらの方法では通常、エンドツーエンドの前景と背景のセグメンテーションが採用されており、異なるオブジェクト インスタンスを明示的に区別してテキスト クエリに関連付けるメカニズムが欠けているためです。
この目的を達成するために、オブジェクトレベルの推論をセグメンテーションプロセスに組み込む方法である InstAlign を提案します。
私たちのモデルは、テキストと画像の両方の入力を利用して、入力プロンプト内のセマンティック情報と画像内のオブジェクトの両方をキャプチャするオブジェクトレベルのトークンのセットを抽出します。
インスタンスレベルの監視を介してテキストとオブジェクトの位置合わせをモデル化することにより、各トークンは画像内のオブジェクトセグメントを一意に表し、同時にテキストからの関連する意味情報とも位置合わせされます。
gRefCOCO および Ref-ZOM ベンチマークに関する広範な実験により、私たちの手法が最先端のパフォーマンスを大幅に向上させ、正確で柔軟な GRES の新しい標準を確立することが実証されました。

要約(オリジナル)

Recent works on Generalized Referring Expression Segmentation (GRES) struggle with handling complex expressions referring to multiple distinct objects. This is because these methods typically employ an end-to-end foreground-background segmentation and lack a mechanism to explicitly differentiate and associate different object instances to the text query. To this end, we propose InstAlign, a method that incorporates object-level reasoning into the segmentation process. Our model leverages both text and image inputs to extract a set of object-level tokens that capture both the semantic information in the input prompt and the objects within the image. By modeling the text-object alignment via instance-level supervision, each token uniquely represents an object segment in the image, while also aligning with relevant semantic information from the text. Extensive experiments on the gRefCOCO and Ref-ZOM benchmarks demonstrate that our method significantly advances state-of-the-art performance, setting a new standard for precise and flexible GRES.

arxiv情報

著者 E-Ro Nguyen,Hieu Le,Dimitris Samaras,Michael Ryoo
発行日 2024-11-22 17:28:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.LG パーマリンク