要約
Vision Foundation Models(VFMS)は、大規模な事前トレーニングのために一般化されていますが、この能力を維持しながら、ドメイン一般化セマンティックセグメンテーション(DGSS)のためにそれらを微調整することは依然として困難です。
既存のアプローチは、パラメーターを選択的に微調整するか、VFMSをフリーズし、アダプターのみを更新します。どちらもDGSSタスクのVFMSの可能性を完全に活用できない場合があります。
VFMのドメインに敏感なパラメーターは、タスクと配布の違いから生じることで、一般化を妨げる可能性があることがわかります。
これに対処するために、ドメイン関連のフィッシャー情報マトリックス(DR-FIM)によって導かれる堅牢な微調整方法である\ textBf {Fishertune}を提案します。
DR-FIMは、タスクとドメイン全体のパラメーター感度を測定し、一般化を維持し、DGSSの適応性を高める選択的更新を可能にします。
Fishertuneは、DR-FIM推定を安定化するための変動推論を組み込み、パラメーターをガウス分散変数として扱い、事前に訓練されたプライアーを活用しています。
広範な実験では、フィッシュトゥンが一般化、選択的パラメーター、アダプターベースの方法を上回りながら、優れたクロスドメインセグメンテーションを達成することが示されています。
要約(オリジナル)
Vision Foundation Models (VFMs) excel in generalization due to large-scale pretraining, but fine-tuning them for Domain Generalized Semantic Segmentation (DGSS) while maintaining this ability remains challenging. Existing approaches either selectively fine-tune parameters or freeze the VFMs and update only the adapters, both of which may underutilize the VFMs’ full potential in DGSS tasks. We observe that domain-sensitive parameters in VFMs, arising from task and distribution differences, can hinder generalization. To address this, we propose \textbf{FisherTune}, a robust fine-tuning method guided by the Domain-Related Fisher Information Matrix (DR-FIM). DR-FIM measures parameter sensitivity across tasks and domains, enabling selective updates that preserve generalization and enhance DGSS adaptability. FisherTune incorporates variational inference to stabilize DR-FIM estimation, treating parameters as Gaussian-distributed variables and leveraging pre-trained priors. Extensive experiments show that FisherTune achieves superior cross-domain segmentation while maintaining generalization, outperforming selective-parameter and adapter-based methods.
arxiv情報
著者 | Dong Zhao,Jinlong Li,Shuang Wang,Mengyao Wu,Qi Zang,Nicu Sebe,Zhun Zhong |
発行日 | 2025-04-01 09:23:00+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google