Highly Accurate Dichotomous Image Segmentation

要約

自然画像から高精度のオブジェクトをセグメント化することを目的とした二分画像セグメンテーション(DIS)と呼ばれる新しいタスクに関する体系的な研究を提示します。
この目的のために、DIS5Kと呼ばれる最初の大規模なDISデータセットを収集しました。このデータセットには、さまざまな背景のカモフラージュ、目立つ、または細心の注意を払ったオブジェクトをカバーする5,470枚の高解像度(2K、4K以上など)の画像が含まれています。
DISには、非常にきめの細かいラベルが付けられています。
さらに、DISモデルトレーニングの機能レベルとマスクレベルの両方のガイダンスを使用した単純な中間監視ベースライン(IS-Net)を紹介します。
IS-Netは、提案されたDIS5Kのさまざまな最先端のベースラインを上回り、DISでの将来の研究を促進できる一般的な自己学習型の監視ネットワークになっています。
さらに、誤検知と誤検知を修正するために必要なマウスクリック操作の数を概算する、人間による修正作業(HCE)と呼ばれる新しいメトリックを設計します。
HCEは、モデルと実際のアプリケーション間のギャップを測定するために使用されるため、既存のメトリックを補完できます。
最後に、最大規模のベンチマークを実施し、16の代表的なセグメンテーションモデルを評価し、オブジェクトの複雑さに関するより洞察に満ちたディスカッションを提供し、いくつかの潜在的なアプリケーション(背景の除去、アートデザイン、3D再構築など)を示します。
これらの努力が、学術と産業界の両方に有望な方向性を開くことができることを願っています。
プロジェクトページ:https://xuebinqin.github.io/dis/index.html。

要約(オリジナル)

We present a systematic study on a new task called dichotomous image segmentation (DIS) , which aims to segment highly accurate objects from natural images. To this end, we collected the first large-scale DIS dataset, called DIS5K, which contains 5,470 high-resolution (e.g., 2K, 4K or larger) images covering camouflaged, salient, or meticulous objects in various backgrounds. DIS is annotated with extremely fine-grained labels. Besides, we introduce a simple intermediate supervision baseline (IS-Net) using both feature-level and mask-level guidance for DIS model training. IS-Net outperforms various cutting-edge baselines on the proposed DIS5K, making it a general self-learned supervision network that can facilitate future research in DIS. Further, we design a new metric called human correction efforts (HCE) which approximates the number of mouse clicking operations required to correct the false positives and false negatives. HCE is utilized to measure the gap between models and real-world applications and thus can complement existing metrics. Finally, we conduct the largest-scale benchmark, evaluating 16 representative segmentation models, providing a more insightful discussion regarding object complexities, and showing several potential applications (e.g., background removal, art design, 3D reconstruction). Hoping these efforts can open up promising directions for both academic and industries. Project page: https://xuebinqin.github.io/dis/index.html.

arxiv情報

著者 Xuebin Qin,Hang Dai,Xiaobin Hu,Deng-Ping Fan,Ling Shao,and Luc Van Gool
発行日 2022-07-15 14:28:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク