FreeSeg: Unified, Universal and Open-Vocabulary Image Segmentation

要約

タイトル:FreeSeg:統合、普遍的、オープンボキャブラリーの画像セグメンテーション

要約:
– オープンボキャブラリー学習は、任意のカテゴリのテキストベースの説明のセグメンテーションを実現するために現れたものであり、汎用的なアプリケーションシナリオにおいてセグメンテーションシステムを普及させている。
– しかし、既存の手法は特定のセグメンテーションタスク用の専用のアーキテクチャやパラメータを設計することに専念しているため、異なるセグメンテーションタスク間の分断が生じ、セグメンテーションモデルの均質性が妨げられている。
– そこで、本論文ではFreeSegという汎用フレームワークを提案しており、ワンショット学習によりオールインワンネットワークを最適化し、同じアーキテクチャとパラメータを用いて異なるセグメンテーションタスクを推論プロセスでシームレスに処理することができる。
– また、適応型プロンプト学習により、統一モデルはタスクに敏感なカテゴリに関する概念を捕捉し、マルチタスクやさまざまなシナリオにおけるモデルの堅牢性を改善することができる。
– 広範な実験結果は、FreeSegが3つのセグメンテーションタスクにおいて優れたパフォーマンスと汎用性を発揮し、COCOにおける未見クラスに対してセマンティックセグメンテーションで5.5%mIoU、インスタンスセグメンテーションで17.6%mAP、パノプティックセグメンテーションで20.1%PQという大幅な改善をもたらすことを示した。

要約(オリジナル)

Recently, open-vocabulary learning has emerged to accomplish segmentation for arbitrary categories of text-based descriptions, which popularizes the segmentation system to more general-purpose application scenarios. However, existing methods devote to designing specialized architectures or parameters for specific segmentation tasks. These customized design paradigms lead to fragmentation between various segmentation tasks, thus hindering the uniformity of segmentation models. Hence in this paper, we propose FreeSeg, a generic framework to accomplish Unified, Universal and Open-Vocabulary Image Segmentation. FreeSeg optimizes an all-in-one network via one-shot training and employs the same architecture and parameters to handle diverse segmentation tasks seamlessly in the inference procedure. Additionally, adaptive prompt learning facilitates the unified model to capture task-aware and category-sensitive concepts, improving model robustness in multi-task and varied scenarios. Extensive experimental results demonstrate that FreeSeg establishes new state-of-the-art results in performance and generalization on three segmentation tasks, which outperforms the best task-specific architectures by a large margin: 5.5% mIoU on semantic segmentation, 17.6% mAP on instance segmentation, 20.1% PQ on panoptic segmentation for the unseen class on COCO.

arxiv情報

著者 Jie Qin,Jie Wu,Pengxiang Yan,Ming Li,Ren Yuxi,Xuefeng Xiao,Yitong Wang,Rui Wang,Shilei Wen,Xin Pan,Xingang Wang
発行日 2023-03-30 08:42:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク