要約
Masked Image Modeling(MIM)は、視覚表現学習のための強力な自己監視学習パラダイムとして浮上しており、可視領域からの画像のマスクされた部分を予測することにより、モデルが豊富な視覚表現を取得できるようにします。
このアプローチは有望な結果を示していますが、基本的な視覚処理機能を開発する前に、モデルが部分的な観測から複雑な画像分布を学習することが期待される初期のトレーニング段階では、その有効性が最適化の課題によって制限される可能性があると仮定します。
この制限に対処するために、プロトタイプ駆動型のカリキュラム継承フレームワークを提案します。これは、プロトタイプの例からデータセットのより複雑なバリエーションまで進歩するための学習プロセスを構成します。
私たちのアプローチは、トレーニング分布を徐々に拡張し、より安定した効率的な学習軌跡を可能にする温度ベースのアニーリングスキームを導入します。
Imagenet-1Kに関する広範な実験を通じて、カリキュラム学習戦略により、トレーニング効率と表現の質の両方が大幅に向上し、標準のマスクされた自動エンコードと比較してトレーニングエポックが大幅に少ないことを実証します。
私たちの調査結果は、トレーニングの順序を慎重に制御することが、自己監視された視覚学習において重要な役割を果たし、MIMの初期段階の最適化の課題に対する実用的な解決策を提供することを示唆しています。
要約(オリジナル)
Masked Image Modeling (MIM) has emerged as a powerful self-supervised learning paradigm for visual representation learning, enabling models to acquire rich visual representations by predicting masked portions of images from their visible regions. While this approach has shown promising results, we hypothesize that its effectiveness may be limited by optimization challenges during early training stages, where models are expected to learn complex image distributions from partial observations before developing basic visual processing capabilities. To address this limitation, we propose a prototype-driven curriculum leagrning framework that structures the learning process to progress from prototypical examples to more complex variations in the dataset. Our approach introduces a temperature-based annealing scheme that gradually expands the training distribution, enabling more stable and efficient learning trajectories. Through extensive experiments on ImageNet-1K, we demonstrate that our curriculum learning strategy significantly improves both training efficiency and representation quality while requiring substantially fewer training epochs compared to standard Masked Auto-Encoding. Our findings suggest that carefully controlling the order of training examples plays a crucial role in self-supervised visual learning, providing a practical solution to the early-stage optimization challenges in MIM.
arxiv情報
著者 | Jinhong Lin,Cheng-En Wu,Huanran Li,Jifan Zhang,Yu Hen Hu,Pedro Morgado |
発行日 | 2025-06-06 15:44:24+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google