PoLAR: Polar-Decomposed Low-Rank Adapter Representation

要約

大規模モデルの低ランク適応は、部分空間の線形代数ランクを大きく下回る低い安定ランクに悩まされ、微調整性能を劣化させることを示す。割り当てられた部分空間の利用不足を緩和するために、我々はPoLARを提案する。PoLARは、極分解に着想を得たパラメータ化であり、低ランク更新を、スティーフェル多様体に制約された2つの方向行列と、制約のないスケール行列に分解する。我々の理論は、PoLARが正統的な低ランク適応問題において指数関数的に速い収束率をもたらすことを示している。このパラメタリゼーションとリーマン最適化を組み合わせることで、一般的な言語理解、常識的推論、数学的問題解決をテストする3つの異なるベンチマークにおいて、ベースモデルのサイズが350Mから27Bの範囲で、一貫した効果が得られる。

要約(オリジナル)

We show that low-rank adaptation of large-scale models suffers from a low stable rank that is well below the linear algebraic rank of the subspace, degrading fine-tuning performance. To mitigate the underutilization of the allocated subspace, we propose PoLAR, a parameterization inspired by the polar decomposition that factorizes the low-rank update into two direction matrices constrained to Stiefel manifolds and an unconstrained scale matrix. Our theory shows that PoLAR yields an exponentially faster convergence rate on a canonical low-rank adaptation problem. Pairing the parameterization with Riemannian optimization leads to consistent gains on three different benchmarks testing general language understanding, commonsense reasoning, and mathematical problem solving with base model sizes ranging from 350M to 27B.

arxiv情報

著者 Kai Lion,Liang Zhang,Bingcong Li,Niao He
発行日 2025-06-03 17:58:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.LG, eess.SP, math.OC パーマリンク