Jigsaw-ViT: Learning Jigsaw Puzzles in Vision Transformer

要約

Vision Transformer (ViT) は、様々なコンピュータビジョン課題において成功を収め、この畳み込み不要のネットワークの普及を促進している。ViTは画像パッチ上で動作するため、ジグソーパズルの解法に関連する可能性がある。ジグソーパズルは、シャッフルされた連続画像パッチを自然な形に並び替えることを目的とする古典的な自己教師付きタスクである。ジグソーパズルを解くことは、その単純さにもかかわらず、自己教師付き特徴表現学習、領域汎化、細粒度分類など、畳み込みニューラルネットワーク(CNN)を用いた様々なタスクに役立つことが実証されている。 本論文では、ジグソーパズルをViTの自己教師付き補助損失として解き、Jigsaw-ViTと名付け、画像分類を行うことを検討する。本論文では、Jigsaw-ViTを標準的なViTより優れたものにするための2つの改良点、すなわち、位置埋め込みの破棄とパッチのランダムなマスキングを示す。Jigsaw-ViTは標準的なViTよりも汎化性と頑健性の両方を向上させることができ、これは通常トレードオフの関係にあることが分かる。実験により、ImageNet上の大規模画像分類において、ジグソーパズルの枝を追加することで、ViTよりも優れた汎化が得られることが示された。さらに、この補助タスクは、Animal-10N, Food-101N, Clothing1Mのノイズの多いラベルや、敵対的な例に対する頑健性をも向上させる。我々の実装は https://yingyichen-cyy.github.io/Jigsaw-ViT/ で公開されている。

要約(オリジナル)

The success of Vision Transformer (ViT) in various computer vision tasks has promoted the ever-increasing prevalence of this convolution-free network. The fact that ViT works on image patches makes it potentially relevant to the problem of jigsaw puzzle solving, which is a classical self-supervised task aiming at reordering shuffled sequential image patches back to their natural form. Despite its simplicity, solving jigsaw puzzle has been demonstrated to be helpful for diverse tasks using Convolutional Neural Networks (CNNs), such as self-supervised feature representation learning, domain generalization, and fine-grained classification. In this paper, we explore solving jigsaw puzzle as a self-supervised auxiliary loss in ViT for image classification, named Jigsaw-ViT. We show two modifications that can make Jigsaw-ViT superior to standard ViT: discarding positional embeddings and masking patches randomly. Yet simple, we find that Jigsaw-ViT is able to improve both in generalization and robustness over the standard ViT, which is usually rather a trade-off. Experimentally, we show that adding the jigsaw puzzle branch provides better generalization than ViT on large-scale image classification on ImageNet. Moreover, the auxiliary task also improves robustness to noisy labels on Animal-10N, Food-101N, and Clothing1M as well as adversarial examples. Our implementation is available at https://yingyichen-cyy.github.io/Jigsaw-ViT/.

arxiv情報

著者 Yingyi Chen,Xi Shen,Yahui Liu,Qinghua Tao,Johan A. K. Suykens
発行日 2023-01-05 14:55:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク