DatUS^2: Data-driven Unsupervised Semantic Segmentation with Pre-trained Self-supervised Vision Transformer

要約

いくつかの自己教師付きトレーニング スキームの提案が次々と発表され、普遍的な基礎モデルの開発に一歩近づいています。
このプロセスでは、教師なし下流タスクは、自己教師あり学習スキームで学習された視覚特徴の品質を検証するための評価方法の 1 つとして認識されます。
しかし、教師なし高密度セマンティック セグメンテーションは、ビジョン トランスフォーマーの自己教師ありトレーニング中にパッチ レベルの特徴表現に導入されたセマンティック情報の品質を利用および評価できる下流タスクとしては検討されていません。
したがって、この論文では、下流タスクとして教師なしセマンティック セグメンテーション (DatUS^2) のための新しいデータ駆動型アプローチを提案します。
DatUS^2 は、視覚的な優先データや同期データを使用せずに、ラベルのない画像データセットに対して意味的に一貫した高密度の疑似アノテーション セグメンテーション マスクを生成します。
これらの疑似アノテーション付きセグメンテーション マスクを、最近の自己教師ありトレーニング スキームを評価するためのグラウンド トゥルース マスクと比較して、パッチ レベルでの共有意味特性とセグメント レベルでの識別意味特性を学習します。
最後に、提案した下流タスク、つまり DatUS^2 を使用して、既存の最先端の自己教師ありトレーニング スキームを評価します。
また、DatUS^2 の最良のバージョンは、SUIM データセット上で 15.02% の MiOU と 21.47% のピクセル精度を備え、教師なし高密度セマンティック セグメンテーション タスクの既存の最先端の手法を上回っています。
また、大規模で複雑なデータセット (COCO データセット) に対しても、競争力のあるレベルの精度を実現します。

要約(オリジナル)

Successive proposals of several self-supervised training schemes continue to emerge, taking one step closer to developing a universal foundation model. In this process, the unsupervised downstream tasks are recognized as one of the evaluation methods to validate the quality of visual features learned with a self-supervised training scheme. However, unsupervised dense semantic segmentation has not been explored as a downstream task, which can utilize and evaluate the quality of semantic information introduced in patch-level feature representations during self-supervised training of a vision transformer. Therefore, this paper proposes a novel data-driven approach for unsupervised semantic segmentation (DatUS^2) as a downstream task. DatUS^2 generates semantically consistent and dense pseudo annotate segmentation masks for the unlabeled image dataset without using any visual-prior or synchronized data. We compare these pseudo-annotated segmentation masks with ground truth masks for evaluating recent self-supervised training schemes to learn shared semantic properties at the patch level and discriminative semantic properties at the segment level. Finally, we evaluate existing state-of-the-art self-supervised training schemes with our proposed downstream task, i.e., DatUS^2. Also, the best version of DatUS^2 outperforms the existing state-of-the-art method for the unsupervised dense semantic segmentation task with 15.02% MiOU and 21.47% Pixel accuracy on the SUIM dataset. It also achieves a competitive level of accuracy for a large-scale and complex dataset, i.e., the COCO dataset.

arxiv情報

著者 Sonal Kumar,Arijit Sur,Rashmi Dutta Baruah
発行日 2024-01-23 14:53:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, I.4 パーマリンク