要約
最近の研究では、CLIP がゼロ ショット推論を実行する際に目覚ましい成功を収めていることが示されていますが、微調整のパフォーマンスは満足のいくものではありません。
このホワイトペーパーでは、微調整のパフォーマンスがハイパーパラメーターの選択によって大きく影響を受けることを確認しています。
さまざまな主要なハイパーパラメーターを調べ、包括的な研究を通じて、分類タスクの CLIP の微調整におけるそれらの影響を経験的に評価します。
CLIP の微調整パフォーマンスは大幅に過小評価されていることがわかります。
ハイパーパラメーターの改良を備えているため、CLIP 自体が、大規模な教師あり事前トレーニング アプローチやマスク イメージ モデリングの予測ターゲットとして CLIP を使用する最新の作業と比較して、微調整において優れているか、少なくとも競争力があることを示しています。
具体的には、CLIP ViT-Base/16 および CLIP ViT-Large/14 は、ImageNet-1K データセットで 85.7%、88.0% の微調整トップ 1 精度を達成できます。
これらの観察結果は、CLIP が微調整に適していないという従来の結論に異議を唱え、CLIP に基づいて最近提案された改善を再考するように私たちを動機付けます。
\url{https://github.com/LightDXY/FT-CLIP} でコードを公開します。
要約(オリジナル)
Recent studies have shown that CLIP has achieved remarkable success in performing zero-shot inference while its fine-tuning performance is not satisfactory. In this paper, we identify that fine-tuning performance is significantly impacted by hyper-parameter choices. We examine various key hyper-parameters and empirically evaluate their impact in fine-tuning CLIP for classification tasks through a comprehensive study. We find that the fine-tuning performance of CLIP is substantially underestimated. Equipped with hyper-parameter refinement, we demonstrate CLIP itself is better or at least competitive in fine-tuning compared with large-scale supervised pre-training approaches or latest works that use CLIP as prediction targets in Masked Image Modeling. Specifically, CLIP ViT-Base/16 and CLIP ViT-Large/14 can achieve 85.7%,88.0% finetuning Top-1 accuracy on the ImageNet-1K dataset . These observations challenge the conventional conclusion that CLIP is not suitable for fine-tuning, and motivate us to rethink recently proposed improvements based on CLIP. We will release our code publicly at \url{https://github.com/LightDXY/FT-CLIP}.
arxiv情報
著者 | Xiaoyi Dong,Jianmin Bao,Ting Zhang,Dongdong Chen,Shuyang Gu,Weiming Zhang,Lu Yuan,Dong Chen,Fang Wen,Nenghai Yu |
発行日 | 2022-12-12 18:59:59+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google