要約
自然言語文を通じて画像内のオブジェクトを識別する問題である参照画像セグメンテーション (RIS) は、現在、ほとんどが教師あり学習によって解決されている困難なタスクです。
ただし、参照されるアノテーション マスクの収集は時間のかかるプロセスである一方、既存のいくつかの弱教師ありゼロショット アプローチは、完全教師あり学習アプローチと比較してパフォーマンスが大幅に劣ります。
マスク アノテーションなしでパフォーマンスのギャップを埋めるために、RIS を 3 つのステップに分解することで RIS に取り組む、新しい弱教師ありフレームワークを提案します。参照命令 (セグメント) で言及されているオブジェクトのインスタンス マスクを取得し、ゼロショット学習を使用してオブジェクトを選択します。
指定された命令 (選択) の潜在的に正しいマスク、およびゼロショット選択 (正しい) の間違いを修正できるモデルをブートストラップします。
私たちの実験では、最初の 2 つのステップ (ゼロショット セグメントと選択) のみを使用すると、他のゼロショット ベースラインよりも 19% も優れたパフォーマンスを示しました。一方、完全な方法では、このはるかに強力なベースラインが改善され、新しい状態が設定されます。
– 弱い教師付き RIS の技術により、場合によっては、弱教師付き手法と完全教師付き手法の間のギャップが約 33% からわずか 14% に減少します。
コードは https://github.com/fgirbal/segment-select-correct で入手できます。
要約(オリジナル)
Referring Image Segmentation (RIS) – the problem of identifying objects in images through natural language sentences – is a challenging task currently mostly solved through supervised learning. However, while collecting referred annotation masks is a time-consuming process, the few existing weakly-supervised and zero-shot approaches fall significantly short in performance compared to fully-supervised learning ones. To bridge the performance gap without mask annotations, we propose a novel weakly-supervised framework that tackles RIS by decomposing it into three steps: obtaining instance masks for the object mentioned in the referencing instruction (segment), using zero-shot learning to select a potentially correct mask for the given instruction (select), and bootstrapping a model which allows for fixing the mistakes of zero-shot selection (correct). In our experiments, using only the first two steps (zero-shot segment and select) outperforms other zero-shot baselines by as much as 19%, while our full method improves upon this much stronger baseline and sets the new state-of-the-art for weakly-supervised RIS, reducing the gap between the weakly-supervised and fully-supervised methods in some cases from around 33% to as little as 14%. Code is available at https://github.com/fgirbal/segment-select-correct.
arxiv情報
著者 | Francisco Eiras,Kemal Oksuz,Adel Bibi,Philip H. S. Torr,Puneet K. Dokania |
発行日 | 2023-10-23 09:42:29+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google