Implicit Bias in Matrix Factorization and its Explicit Realization in a New Architecture

要約

マトリックス因数分解の勾配降下は、ほぼ低いランクのソリューションに対して暗黙的なバイアスを示すことが知られています。
既存の理論はしばしば繰り返しの境界を想定していますが、経験的にバイアスは、固定されていないシーケンスでも持続します。
したがって、暗黙のバイアスは、データフィッティングの収束力学とは著しく異なる分岐ダイナミクスによって駆動されると仮定します。
この視点を使用して、新しい要因モデルを導入します:$ x \ amptx udv^\ top $。
スペースを検索します。
私たちの実験は、このモデルが初期化とステップサイズに関係なく強力な暗黙のバイアスを示すことを明らかにしており、実際に(ほぼの)低ランクのソリューションをもたらします。
さらに、マトリックス因数分解とニューラルネットワークの描画類似点では、制約された層と対角線成分を特徴とする新しいニューラルネットワークモデルを提案します。
このモデルは、低ランクのソリューションを見つけながら、さまざまな回帰および分類タスクにわたって強力なパフォーマンスを実現し、効率的で軽量のネットワークをもたらします。

要約(オリジナル)

Gradient descent for matrix factorization is known to exhibit an implicit bias toward approximately low-rank solutions. While existing theories often assume the boundedness of iterates, empirically the bias persists even with unbounded sequences. We thus hypothesize that implicit bias is driven by divergent dynamics markedly different from the convergent dynamics for data fitting. Using this perspective, we introduce a new factorization model: $X\approx UDV^\top$, where $U$ and $V$ are constrained within norm balls, while $D$ is a diagonal factor allowing the model to span the entire search space. Our experiments reveal that this model exhibits a strong implicit bias regardless of initialization and step size, yielding truly (rather than approximately) low-rank solutions. Furthermore, drawing parallels between matrix factorization and neural networks, we propose a novel neural network model featuring constrained layers and diagonal components. This model achieves strong performance across various regression and classification tasks while finding low-rank solutions, resulting in efficient and lightweight networks.

arxiv情報

著者 Yikun Hou,Suvrit Sra,Alp Yurtsever
発行日 2025-01-27 18:56:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.OC, stat.ML パーマリンク