要約
この研究では、自己教師あり学習における口実の事前トレーニングと下流の微調整段階の間の調整を強化するためにバイレベル最適化を導入する、この種初のトレーニング フレームワークである BiSSL を紹介します。
BiSSL は、口実と下流のタスク目標をバイレベル最適化問題の下位レベルおよび上位レベルの目標として定式化し、自己教師あり学習パイプライン内の中間トレーニング ステージとして機能します。
これらのトレーニング ステージの相互依存性をより明示的にモデル化することで、BiSSL はそれらのトレーニング ステージ間の情報共有の強化を促進し、最終的には下流のタスクにより適したバックボーン パラメーターの初期化につながります。
BiSSL で定義された 2 つの目標の最適化を交互に行うトレーニング アルゴリズムを提案します。
STL10 データセット上で SimCLR で事前トレーニングされた ResNet-18 バックボーンを使用して、提案したフレームワークが、従来の自己教師あり学習パイプラインと比較して、さまざまな下流画像分類データセットにわたって一貫して向上または競争力のある分類精度を達成していることを実証します。
バックボーン特徴の定性分析は、BiSSL が微調整前にバックボーンの下流特徴の位置合わせを強化することをさらに示唆しています。
要約(オリジナル)
In this work, we present BiSSL, a first-of-its-kind training framework that introduces bilevel optimization to enhance the alignment between the pretext pre-training and downstream fine-tuning stages in self-supervised learning. BiSSL formulates the pretext and downstream task objectives as the lower- and upper-level objectives in a bilevel optimization problem and serves as an intermediate training stage within the self-supervised learning pipeline. By more explicitly modeling the interdependence of these training stages, BiSSL facilitates enhanced information sharing between them, ultimately leading to a backbone parameter initialization that is better suited for the downstream task. We propose a training algorithm that alternates between optimizing the two objectives defined in BiSSL. Using a ResNet-18 backbone pre-trained with SimCLR on the STL10 dataset, we demonstrate that our proposed framework consistently achieves improved or competitive classification accuracies across various downstream image classification datasets compared to the conventional self-supervised learning pipeline. Qualitative analyses of the backbone features further suggest that BiSSL enhances the alignment of downstream features in the backbone prior to fine-tuning.
arxiv情報
著者 | Gustav Wagner Zakarias,Lars Kai Hansen,Zheng-Hua Tan |
発行日 | 2024-11-19 15:39:41+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google