DaTaSeg: Taming a Universal Multi-Dataset Multi-Task Segmentation Model

要約

パノプティック、セマンティック、インスタンスセグメンテーションの各タスクには密接な関係があることから、マルチデータセット・マルチタスクセグメンテーションモデルを開発することを提案する:全てのタスクに対して、共有表現(クラス予測付きマスク提案)を用いる。タスクの不一致に対処するために、タスクごとに異なるマージ操作と後処理を採用する。また、weak-supervisionを活用し、セグメンテーションモデルがより安価なバウンディングボックスのアノテーションから利益を得ることができるようにする。データセット間で知識を共有するために、同じ意味埋め込み空間からのテキスト埋め込みを分類器として使用し、データセット間で全てのネットワークパラメータを共有します。ADEセマンティック、COCOパノプティック、Objects365検出データセットでDaTaSegを訓練する。DaTaSegは全てのデータセット、特に小規模なデータセットで性能を向上させ、ADE semanticで54.0mIoU、COCO panopticで53.5PQを達成した。また、DaTaSegは、ADE panopticとObjects365のインスタンス分割において、弱い教師ありの知識伝達を可能にしました。実験によると、DaTaSegは訓練データセットの数に応じてスケールし、直接転送によりオープンボキャブラリーのセグメンテーションが可能になる。さらに、1,000枚の画像からなるObjects365インスタンスセグメンテーションセットに注釈を付け、公開ベンチマークとして公開する予定である。

要約(オリジナル)

Observing the close relationship among panoptic, semantic and instance segmentation tasks, we propose to train a universal multi-dataset multi-task segmentation model: DaTaSeg.We use a shared representation (mask proposals with class predictions) for all tasks. To tackle task discrepancy, we adopt different merge operations and post-processing for different tasks. We also leverage weak-supervision, allowing our segmentation model to benefit from cheaper bounding box annotations. To share knowledge across datasets, we use text embeddings from the same semantic embedding space as classifiers and share all network parameters among datasets. We train DaTaSeg on ADE semantic, COCO panoptic, and Objects365 detection datasets. DaTaSeg improves performance on all datasets, especially small-scale datasets, achieving 54.0 mIoU on ADE semantic and 53.5 PQ on COCO panoptic. DaTaSeg also enables weakly-supervised knowledge transfer on ADE panoptic and Objects365 instance segmentation. Experiments show DaTaSeg scales with the number of training datasets and enables open-vocabulary segmentation through direct transfer. In addition, we annotate an Objects365 instance segmentation set of 1,000 images and will release it as a public benchmark.

arxiv情報

著者 Xiuye Gu,Yin Cui,Jonathan Huang,Abdullah Rashwan,Xuan Yang,Xingyi Zhou,Golnaz Ghiasi,Weicheng Kuo,Huizhong Chen,Liang-Chieh Chen,David A Ross
発行日 2023-06-02 17:59:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク