GRES: Generalized Referring Expression Segmentation

要約

参照式セグメンテーション (RES) は、指定された言語式で記述されたオブジェクトのセグメンテーション マスクを生成することを目的としています。
既存のクラシック RES データセットとメソッドは通常、単一ターゲット式のみをサポートします。つまり、1 つの式が 1 つのターゲット オブジェクトを参照します。
マルチターゲット式とノーターゲット式は考慮されません。
これにより、実際の RES の使用が制限されます。
このペーパーでは、一般化参照式セグメンテーション (GRES) と呼ばれる新しいベンチマークを紹介します。これは、式が任意の数のターゲット オブジェクトを参照できるように古典的な RES を拡張します。
これに向けて、マルチターゲット式、ノーターゲット式、およびシングルターゲット式を含む gRefCOCO と呼ばれる最初の大規模 GRES データセットを構築します。
GRES および gRefCOCO は、RES との互換性が高いように設計されており、GRES タスクにおける既存の RES メソッドのパフォーマンス ギャップを研究する広範な実験を容易にします。
実験研究では、GRES の大きな課題の 1 つは複雑な関係モデリングであることがわかりました。
これに基づいて、サブインスタンスの手掛かりを使用して画像を領域に適応的に分割し、領域と領域および領域と言語の依存関係を明示的にモデル化する、領域ベースの GRES ベースライン ReLA を提案します。
提案されたアプローチ ReLA は、新しく提案された GRES タスクと従来の RES タスクの両方で新しい最先端のパフォーマンスを達成します。
提案された gRefCOCO データセットとメソッドは、https://henghuiding.github.io/GRES で入手できます。

要約(オリジナル)

Referring Expression Segmentation (RES) aims to generate a segmentation mask for the object described by a given language expression. Existing classic RES datasets and methods commonly support single-target expressions only, i.e., one expression refers to one target object. Multi-target and no-target expressions are not considered. This limits the usage of RES in practice. In this paper, we introduce a new benchmark called Generalized Referring Expression Segmentation (GRES), which extends the classic RES to allow expressions to refer to an arbitrary number of target objects. Towards this, we construct the first large-scale GRES dataset called gRefCOCO that contains multi-target, no-target, and single-target expressions. GRES and gRefCOCO are designed to be well-compatible with RES, facilitating extensive experiments to study the performance gap of the existing RES methods on the GRES task. In the experimental study, we find that one of the big challenges of GRES is complex relationship modeling. Based on this, we propose a region-based GRES baseline ReLA that adaptively divides the image into regions with sub-instance clues, and explicitly models the region-region and region-language dependencies. The proposed approach ReLA achieves new state-of-the-art performance on the both newly proposed GRES and classic RES tasks. The proposed gRefCOCO dataset and method are available at https://henghuiding.github.io/GRES.

arxiv情報

著者 Chang Liu,Henghui Ding,Xudong Jiang
発行日 2023-06-01 17:57:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク