Frequency-Guided Masking for Enhanced Vision Self-Supervised Learning

要約

事前トレーニングの有効性を大幅に高める、新しい頻度ベースの自己教師あり学習 (SSL) アプローチを紹介します。
この方向の以前の研究では、入力画像内の事前定義された周波数をマスクし、再構成損失を使用してモデルを事前トレーニングしました。
このような実装には有望な結果が得られますが、論文で明らかにしたように 2 つの基本的な制限があります。
まず、事前定義された周波数を使用すると、画像周波数応答の変動性が見落とされます。
2 番目に、周波数フィルターされた画像で事前トレーニングされた結果のモデルは、微調整中に自然に見える画像に適応するために比較的多くのデータを必要とします。
これらの欠点に対処するために、2 つの専用のアイデアを統合した、seLf-Knowledge distillation (FOLK) を使用したフーリエ変換圧縮を提案します。
まず、画像圧縮にヒントを得て、画像の周波数応答に基づいてマスクアウトされた周波数を適応的に選択し、事前トレーニングにより適した SSL タスクを作成します。
次に、知識の蒸留によって強化された 2 つの分岐フレームワークを採用し、モデルがフィルター処理された画像と元の画像の両方を入力として取得できるようにし、下流のタスクの負担を大幅に軽減します。
私たちの実験結果は、画像分類、少数ショット学習、セマンティック セグメンテーションなどのさまざまな下流タスクにわたって、多くの最先端の SSL 手法に匹敵するパフォーマンスを達成する際の FOLK の有効性を実証しています。

要約(オリジナル)

We present a novel frequency-based Self-Supervised Learning (SSL) approach that significantly enhances its efficacy for pre-training. Prior work in this direction masks out pre-defined frequencies in the input image and employs a reconstruction loss to pre-train the model. While achieving promising results, such an implementation has two fundamental limitations as identified in our paper. First, using pre-defined frequencies overlooks the variability of image frequency responses. Second, pre-trained with frequency-filtered images, the resulting model needs relatively more data to adapt to naturally looking images during fine-tuning. To address these drawbacks, we propose FOurier transform compression with seLf-Knowledge distillation (FOLK), integrating two dedicated ideas. First, inspired by image compression, we adaptively select the masked-out frequencies based on image frequency responses, creating more suitable SSL tasks for pre-training. Second, we employ a two-branch framework empowered by knowledge distillation, enabling the model to take both the filtered and original images as input, largely reducing the burden of downstream tasks. Our experimental results demonstrate the effectiveness of FOLK in achieving competitive performance to many state-of-the-art SSL methods across various downstream tasks, including image classification, few-shot learning, and semantic segmentation.

arxiv情報

著者 Amin Karimi Monsefi,Mengxi Zhou,Nastaran Karimi Monsefi,Ser-Nam Lim,Wei-Lun Chao,Rajiv Ramnath
発行日 2024-09-16 15:10:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク