Towards Omni-supervised Referring Expression Segmentation

要約

参照式セグメント化 (RES) は、テキストの説明に基づいて画像内のターゲット インスタンスをセグメント化する、コンピューター ビジョンの新しいタスクです。
ただし、その開発は高価なセグメンテーション ラベルによって悩まされています。
この問題に対処するために、オムニ教師あり参照表現セグメンテーション (Omni-RES) と呼ばれる RES の新しい学習タスクを提案します。これは、ラベルなしデータ、完全ラベル付きデータ、および弱くラベル付けされたデータ (参照ポイントや接地ボックスなど) を最大限に活用することを目的としています。
効率的なRESトレーニングのために。
このタスクを達成するために、最近人気のある教師と生徒の学習に基づいた、Omni-RES の新規かつ強力なベースライン方法も提案します。この方法では、弱いラベルは直接監視信号に変換されず、高いラベルを選択して調整するための基準として使用されます。
-教師と生徒の学習のための高品質の疑似マスク。
提案された Omni-RES 手法を検証するために、それを一連の最先端の RES モデルに適用し、多数の RES データセットに対して広範な実験を実施します。
実験結果からは、完全教師ありおよび半教師ありのトレーニング スキームよりも Omni-RES の明らかな利点が得られます。
たとえば、完全にラベル付けされたデータが 10% のみの場合、Omni-RES は基本モデルが 100% 完全教師ありのパフォーマンスを達成するのに役立ち、半教師ありの代替モデルよりも大幅にパフォーマンスが優れています (例: RefCOCO で +14.93%、+14.95)。
RefCOCO+ ではそれぞれ %。
さらに重要なのは、Omni-RES により、Visual Genome のような大規模ビジョン言語の使用も可能になり、低コストの RES トレーニングが容易になり、RES の新しい SOTA パフォーマンス (例: RefCOCO で 80.66) を達成できるようになります。

要約(オリジナル)

Referring Expression Segmentation (RES) is an emerging task in computer vision, which segments the target instances in images based on text descriptions. However, its development is plagued by the expensive segmentation labels. To address this issue, we propose a new learning task for RES called Omni-supervised Referring Expression Segmentation (Omni-RES), which aims to make full use of unlabeled, fully labeled and weakly labeled data, e.g., referring points or grounding boxes, for efficient RES training. To accomplish this task, we also propose a novel yet strong baseline method for Omni-RES based on the recently popular teacher-student learning, where where the weak labels are not directly transformed into supervision signals but used as a yardstick to select and refine high-quality pseudo-masks for teacher-student learning. To validate the proposed Omni-RES method, we apply it to a set of state-of-the-art RES models and conduct extensive experiments on a bunch of RES datasets. The experimental results yield the obvious merits of Omni-RES than the fully-supervised and semi-supervised training schemes. For instance, with only 10% fully labeled data, Omni-RES can help the base model achieve 100% fully supervised performance, and it also outperform the semi-supervised alternative by a large margin, e.g., +14.93% on RefCOCO and +14.95% on RefCOCO+, respectively. More importantly, Omni-RES also enable the use of large-scale vision-langauges like Visual Genome to facilitate low-cost RES training, and achieve new SOTA performance of RES, e.g., 80.66 on RefCOCO.

arxiv情報

著者 Minglang Huang,Yiyi Zhou,Gen Luo,Guannan Jiang,Weilin Zhuang,Xiaoshuai Sun
発行日 2023-11-01 09:46:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク