Morphing Tokens Draw Strong Masked Image Models

要約

マスク イメージ モデリング (MIM) は、ビジョン トランスフォーマー (ViT) をトレーニングするための有望なアプローチとして浮上しています。
MIM の本質は、マスクされたトークンのトークンごとの予測にあり、画像からトークン化されたターゲット、または視覚言語モデルなどの事前トレーニングされたモデルによって生成されたターゲットを予測することを目的としています。
トークナイザーや事前トレーニングされたモデルの使用は MIM ターゲットとして考えられますが、隣接するトークンであっても空間的に一貫性のないターゲットを提供することが多く、統一された識別表現を学習するためのモデルが複雑になります。
私たちのパイロット研究では、空間的な不一致を特定し、それらを解決することで表現学習を加速できることを示唆しています。
この洞察に基づいて、ダイナミック トークン モーフィング (DTM) と呼ばれる新しい自己監視信号を導入します。これは、コンテキストに関連するトークンを動的に集約してコンテキスト化されたターゲットを生成し、それによって空間の不一致を軽減します。
DTM はさまざまな SSL フレームワークと互換性があります。
DTM を採用することで、追加のトレーニング コストをほとんど発生させずに、MIM の結果が改善されたことを紹介します。
私たちの方法では、一貫した目標を使用することでトレーニングが容易になり、1) トレーニングが高速化され、2) 損失が減少します。
ImageNet-1K および ADE20K での実験では、最先端の複雑な MIM 手法と比較して、私たちの手法の優位性が実証されています。
さらに、iNaturalists と詳細な視覚分類データセットの比較評価により、さまざまな下流タスクへの私たちの手法の移転可能性がさらに検証されます。
コードはhttps://github.com/naver-ai/dtmで入手できます。

要約(オリジナル)

Masked image modeling (MIM) has emerged as a promising approach for training Vision Transformers (ViTs). The essence of MIM lies in the token-wise prediction of masked tokens, which aims to predict targets tokenized from images or generated by pre-trained models like vision-language models. While using tokenizers or pre-trained models are plausible MIM targets, they often offer spatially inconsistent targets even for neighboring tokens, complicating models to learn unified and discriminative representations. Our pilot study identifies spatial inconsistencies and suggests that resolving them can accelerate representation learning. Building upon this insight, we introduce a novel self-supervision signal called Dynamic Token Morphing (DTM), which dynamically aggregates contextually related tokens to yield contextualized targets, thereby mitigating spatial inconsistency. DTM is compatible with various SSL frameworks; we showcase improved MIM results by employing DTM, barely introducing extra training costs. Our method facilitates training by using consistent targets, resulting in 1) faster training and 2) reduced losses. Experiments on ImageNet-1K and ADE20K demonstrate the superiority of our method compared with state-of-the-art, complex MIM methods. Furthermore, the comparative evaluation of the iNaturalists and fine-grained visual classification datasets further validates the transferability of our method on various downstream tasks. Code is available at https://github.com/naver-ai/dtm

arxiv情報

著者 Taekyung Kim,Byeongho Heo,Dongyoon Han
発行日 2024-10-10 16:07:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク