要約
画像を認識することと、画像をまとまった領域に分割することは、しばしば別タスクとして扱われる。しかし、人間の視覚は、認識が行われる前に、セグメンテーションの階層性に関する一般的な感覚を持っている。そこで我々は、ラベル付けされていない画像のみから、階層的な画像分割を伴う画像認識を学習することに着想を得た。我々は、スーパーピクセル、セグメント、画像全体のレベルで同時に微細から粗い特徴を学習することで、画像インスタンス間の識別を最大化しながら、特徴から誘導されるセグメンテーションの一貫性と良さを強制する。 我々のモデルは3つの側面でビジョン変換器を革新している。1) 固定形状パッチトークンではなく、適応的セグメントトークンを用いる。2) 変換器ブロック間にグラフプーリングを挿入することでトークン階層を形成し、セグメントサイズを大きく、トークン数を少なくしながら、一貫したマルチスケールセグメンテーションを自然に生成する。3) 画像単位での識別を最大化することにより、認識のための学習を行いながら、無料で階層的な画像セグメンテーションを生成する。 我々の研究は、初めて認識と階層的セグメンテーションを同時に行うモデルを、監視なしで実現した。ImageNetとPASCAL VOCで検証した結果、より良い認識とセグメンテーションを高い計算効率で実現することができた。
要約(オリジナル)
Recognizing an image and segmenting it into coherent regions are often treated as separate tasks. Human vision, however, has a general sense of segmentation hierarchy before recognition occurs. We are thus inspired to learn image recognition with hierarchical image segmentation based entirely on unlabeled images. Our insight is to learn fine-to-coarse features concurrently at superpixels, segments, and full image levels, enforcing consistency and goodness of feature induced segmentations while maximizing discrimination among image instances. Our model innovates vision transformers on three aspects. 1) We use adaptive segment tokens instead of fixed-shape patch tokens. 2) We create a token hierarchy by inserting graph pooling between transformer blocks, naturally producing consistent multi-scale segmentations while increasing the segment size and reducing the number of tokens. 3) We produce hierarchical image segmentation for free while training for recognition by maximizing image-wise discrimination. Our work delivers the first concurrent recognition and hierarchical segmentation model without any supervision. Validated on ImageNet and PASCAL VOC, it achieves better recognition and segmentation with higher computational efficiency.
arxiv情報
著者 | Tsung-Wei Ke,Jyh-Jing Hwang,Stella X. Yu |
発行日 | 2022-10-04 17:33:05+00:00 |
arxivサイト | arxiv_id(pdf) |