要約
CLIP のようなゼロショット モデルを微調整する場合、微調整されたモデルがディストリビューション内 (ID) とディストリビューション外 (OOD) の両方で優れていることが望まれます。
最近、アンサンブルベース モデル (ESM) は、高い ID 精度を維持しながら、堅牢性が大幅に向上することが示されました。
しかし、私たちの研究では、ESM は ID と OOD のトレードオフを解決していないことがわかりました。ESM は、異なる混合係数で ID と OOD 精度のピークパフォーマンスを達成します。
OOD 精度を最適化すると、アンサンブル モデルは ID 精度の顕著な低下を示し、逆も同様です。
対照的に、我々は、トレードオフなしに最高の ID と OOD 精度を同時に達成できるサンプル単位のアンサンブル手法を提案します。
具体的には、ゼロショット モデルによって誤って予測されたトレーニング サンプルを含むゼロショット失敗 (ZSF) セットを構築します。
各テスト サンプルについて、ZSF セットまでの距離を計算し、距離が小さい場合はアンサンブル内の微調整モデルにより高い重みを割り当てます。
この方法は、アンサンブル予測の分散を効果的に低減し、それによって残差誤差が減少するため、この方法を分散低減微調整 (VRF) と呼んでいます。
ImageNet と 5 つの派生分布シフトでは、VRF は ID 精度を維持または向上させながら、アンサンブル ベースラインよりも OOD 精度を 1.5 ~ 2.0 pp 改善します。
VRF は、他の分布シフト ベンチマークでも同様の大きなロバスト性向上 (0.9 ~ 3.1 pp) を達成します。
コードは https://github.com/BeierZhu/VRF で入手できます。
要約(オリジナル)
When fine-tuning zero-shot models like CLIP, our desideratum is for the fine-tuned model to excel in both in-distribution (ID) and out-of-distribution (OOD). Recently, ensemble-based models (ESM) have been shown to offer significant robustness improvement, while preserving high ID accuracy. However, our study finds that ESMs do not solve the ID-OOD trade-offs: they achieve peak performance for ID and OOD accuracy at different mixing coefficients. When optimized for OOD accuracy, the ensemble model exhibits a noticeable decline in ID accuracy, and vice versa. In contrast, we propose a sample-wise ensembling technique that can simultaneously attain the best ID and OOD accuracy without the trade-offs. Specifically, we construct a Zero-Shot Failure (ZSF) set containing training samples incorrectly predicted by the zero-shot model. For each test sample, we calculate its distance to the ZSF set and assign a higher weight to the fine-tuned model in the ensemble if the distance is small. We term our method Variance Reduction Fine-tuning (VRF), as it effectively reduces the variance in ensemble predictions, thereby decreasing residual error. On ImageNet and five derived distribution shifts, our VRF further improves the OOD accuracy by 1.5 – 2.0 pp over the ensemble baselines while maintaining or increasing ID accuracy. VRF achieves similar large robustness gains (0.9 – 3.1 pp) on other distribution shifts benchmarks. Codes are available in https://github.com/BeierZhu/VRF.
arxiv情報
著者 | Beier Zhu,Jiequan Cui,Hanwang Zhang |
発行日 | 2024-11-11 13:13:39+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google