SOHES: Self-supervised Open-world Hierarchical Entity Segmentation

要約

オープンワールド エンティティ セグメンテーションは、新たなコンピューター ビジョン タスクとして、事前定義されたクラスに制限されることなく画像内のエンティティをセグメント化することを目的としており、目に見えない画像や概念に対する優れた一般化機能を提供します。
その期待にもかかわらず、Segment Anything Model (SAM) などの既存のエンティティ セグメンテーション手法は、費用のかかる専門家のアノテーターに大きく依存しています。
この研究では、人間による注釈の必要性を排除する新しいアプローチである自己監視型オープンワールド階層エンティティ セグメンテーション (SOHES) を紹介します。
SOHES は、自己探求、自己指導、自己修正の 3 つのフェーズで運営されています。
事前にトレーニングされた自己教師あり表現が与えられると、視覚的特徴クラスタリングを通じて豊富な高品質の疑似ラベルが生成されます。
次に、擬似ラベル上でセグメンテーション モデルをトレーニングし、教師と生徒の相互学習手順を通じて擬似ラベル内のノイズを修正します。
SOHES はエンティティをセグメント化するだけでなく、その構成部分もキャプチャし、視覚的なエンティティの階層的な理解を提供します。
生の画像を唯一のトレーニング データとして使用する私たちの手法は、自己監視型オープンワールド セグメンテーションにおいて前例のないパフォーマンスを達成し、人間による注釈付きマスクの不在下での高品質のオープンワールド エンティティ セグメンテーションに向けた重要なマイルストーンを示しています。
プロジェクトページ: https://SOHES.github.io

要約(オリジナル)

Open-world entity segmentation, as an emerging computer vision task, aims at segmenting entities in images without being restricted by pre-defined classes, offering impressive generalization capabilities on unseen images and concepts. Despite its promise, existing entity segmentation methods like Segment Anything Model (SAM) rely heavily on costly expert annotators. This work presents Self-supervised Open-world Hierarchical Entity Segmentation (SOHES), a novel approach that eliminates the need for human annotations. SOHES operates in three phases: self-exploration, self-instruction, and self-correction. Given a pre-trained self-supervised representation, we produce abundant high-quality pseudo-labels through visual feature clustering. Then, we train a segmentation model on the pseudo-labels, and rectify the noises in pseudo-labels via a teacher-student mutual-learning procedure. Beyond segmenting entities, SOHES also captures their constituent parts, providing a hierarchical understanding of visual entities. Using raw images as the sole training data, our method achieves unprecedented performance in self-supervised open-world segmentation, marking a significant milestone towards high-quality open-world entity segmentation in the absence of human-annotated masks. Project page: https://SOHES.github.io.

arxiv情報

著者 Shengcao Cao,Jiuxiang Gu,Jason Kuen,Hao Tan,Ruiyi Zhang,Handong Zhao,Ani Nenkova,Liang-Yan Gui,Tong Sun,Yu-Xiong Wang
発行日 2024-04-18 17:59:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク