TRAM: Bridging Trust Regions and Sharpness Aware Minimization

要約

Sharpness-aware Minimization (SAM) は、パラメーター空間の損失曲面の曲率を低減することで領域の一般化を改善すると報告しています。
ただし、微調整中の一般化は、多くの場合、関数空間での表現の伝達可能性に依存します。
信頼領域法 (TR) は、タスク固有のスキルを採用しながら、事前にトレーニングされたタスクに依存しない情報の壊滅的な忘れを軽減するために、表現の曲率を正規化することでこの目標を目指しています。
パラメータ空間と関数空間の両方で曲率を低くするためのこれらの戦略を統合して、ドメイン外 (OOD) 一般化を改善することを検討します。
私たちは、Trust Regional Aware Minimization (TRAM) を提案します。これは、事前トレーニングされた構造を維持しながら、低いパラメータの鮮明さと滑らかで有益な表現を実現するための SAM アルゴリズムの微調整です。
TRAM は、SAM 敵対的近傍を通知するためにバインドされた信頼領域を使用し、フラットな最小値の最適化内で関数の曲率を認識します。
私たちは、堅牢なドメイン転送と表現の一般性が重要なビジョン (データセット間適応) およびテキスト (OOD 言語モデリング、ゼロショットのクロス言語転送) タスクにおける TRAM を経験的に検証します。
TRAM は、すべてのタスクにわたって SAM および TR ベースの最適化を上回っており、特に逆相関ドメイン間のハード転送では競合する方法を上回っています。
TRAM は、以前のシャープネスを意識した方法に比べて、最小限の追加計算でドメイン一般化可能なモデルの微調整における新しい標準を確立します。

要約(オリジナル)

Sharpness-aware minimization (SAM) reports improving domain generalization by reducing the loss surface curvature in the parameter space. However, generalization during fine-tuning is often more dependent on the transferability of representations in the function space. Trust-region methods (TR) target this goal by regularizing representation curvature to reduce catastrophic forgetting of pre-trained task-agnostic information while adopting task-specific skills. We consider unifying these strategies for low curvature in both parameter space and function space to improve out-of-domain (OOD) generalization. We propose Trust Region Aware Minimization (TRAM), a SAM algorithm fine-tuning for low parameter sharpness and smooth, informative representations preserving pre-trained structure. TRAM uses a trust region bound to inform the SAM adversarial neighborhood, introducing an awareness of function curvature within optimization for flatter minima. We empirically validate TRAM in vision (cross-dataset adaptation) and text (OOD language modeling, zero-shot cross-lingual transfer) tasks where robust domain transfer and representation generality are critical. TRAM outperforms SAM- and TR-based optimization across all tasks, notably surpassing competing methods for hard transfer between anticorrelated domains. TRAM establishes a novel standard in fine-tuning for domain-generalizable models with minimal additional computation over previous sharpness-aware methods.

arxiv情報

著者 Tom Sherborne,Naomi Saphra,Pradeep Dasigi,Hao Peng
発行日 2024-03-12 13:38:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク