Towards Robust Referring Image Segmentation

要約

Reference Image Segmentation (RIS) は、基本的な視覚言語タスクである、テキスト記述を指定して対応するオブジェクト マスクを出力することにより、画像と言語を結び付けることを目的としています。
RIS のかなりの進歩を遂げた多くの研究にもかかわらず、この研究では、「記述が間違っていたり、テキスト記述の誤解を招く場合はどうなるか?」という本質的な問題を探ります。
このような文を否定文と呼びます。
しかし、既存の作品はそのような設定を扱うことができないことがわかりました。
この目的のために、Robust Reference Image Segmentation (R-RIS) と名付けられた RIS の新しい定式化を提案します。
通常与えられるテキスト入力に加えて、否定文の入力も考慮されます。
入力された否定的な文と新しいメトリックを拡張して、両方の入力タイプを統合することにより、3 つの異なるデータセットを提示します。
さらに、RefSegformer という名前の新しいトランスフォーマー ベースのモデルを設計し、トークン ベースのビジョンと言語の融合モジュールを導入します。
このようなモジュールは、空白のトークンを追加することで、R-RIS 設定に簡単に拡張できます。
私たちが提案する RefSegformer は、3 つの通常の RIS データセットと 3 つの R-RIS データセットで新しい最先端の結果を達成し、さらなる研究のための新しい堅固なベースラインとして機能します。
プロジェクト ページは \url{https://lxtgh.github.io/project/robust_ref_seg/} にあります。

要約(オリジナル)

Referring Image Segmentation (RIS) aims to connect image and language via outputting the corresponding object masks given a text description, which is a fundamental vision-language task. Despite lots of works that have achieved considerable progress for RIS, in this work, we explore an essential question, ‘what if the description is wrong or misleading of the text description?’. We term such a sentence as a negative sentence. However, we find that existing works cannot handle such settings. To this end, we propose a novel formulation of RIS, named Robust Referring Image Segmentation (R-RIS). It considers the negative sentence inputs besides the regularly given text inputs. We present three different datasets via augmenting the input negative sentences and a new metric to unify both input types. Furthermore, we design a new transformer-based model named RefSegformer, where we introduce a token-based vision and language fusion module. Such module can be easily extended to our R-RIS setting by adding extra blank tokens. Our proposed RefSegformer achieves the new state-of-the-art results on three regular RIS datasets and three R-RIS datasets, which serves as a new solid baseline for further research. The project page is at \url{https://lxtgh.github.io/project/robust_ref_seg/}.

arxiv情報

著者 Jianzong Wu,Xiangtai Li,Xia Li,Henghui Ding,Yunhai Tong,Dacheng Tao
発行日 2022-09-20 08:48:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク