要約
SimMIM は、マスクされた画像モデリングを使用してビジョン トランスフォーマーを事前トレーニングするために広く使用されている方法です。
ただし、パフォーマンスの微調整には成功しましたが、線形プロービングに使用すると最適なパフォーマンスが得られないことが示されています。
我々は、局所的な情報を捕捉し、SimMIM の再構成段階でより良いコンテキストを提供する、キーポイント特徴から導出される効率的なパッチごとの重み付けを提案します。
私たちの手法である KAMIM は、ViT-B を使用して ImageNet-1K データセットでテストした場合、同じエポック数でトレーニングした場合、トップ 1 の線形プローブ精度が 16.12% から 33.97% に向上し、微調整精度が 76.78% から 77.3% に向上しました。
。
私たちは、さまざまなデータセット、キーポイント抽出器、モデル アーキテクチャに対して広範なテストを実施し、パッチごとの重み付けにより、大規模な事前トレーニング データセットの線形プローブのパフォーマンスが向上することを観察しました。
また、KAMIMを使用してトレーニングされたViT-Bの学習表現を分析し、その動作に関して対照学習と同様に動作し、注意距離が長くなり、層全体で均一な自己注意が得られることを観察しました。
私たちのコードは https://github.com/madhava20217/KAMIM で公開されています。
要約(オリジナル)
SimMIM is a widely used method for pretraining vision transformers using masked image modeling. However, despite its success in fine-tuning performance, it has been shown to perform sub-optimally when used for linear probing. We propose an efficient patch-wise weighting derived from keypoint features which captures the local information and provides better context during SimMIM’s reconstruction phase. Our method, KAMIM, improves the top-1 linear probing accuracy from 16.12% to 33.97%, and finetuning accuracy from 76.78% to 77.3% when tested on the ImageNet-1K dataset with a ViT-B when trained for the same number of epochs. We conduct extensive testing on different datasets, keypoint extractors, and model architectures and observe that patch-wise weighting augments linear probing performance for larger pretraining datasets. We also analyze the learned representations of a ViT-B trained using KAMIM and observe that they behave similar to contrastive learning with regard to its behavior, with longer attention distances and homogenous self-attention across layers. Our code is publicly available at https://github.com/madhava20217/KAMIM.
arxiv情報
著者 | Madhava Krishna,A V Subramanyam |
発行日 | 2024-12-27 17:16:25+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google