要約
アテンション メカニズムは、モデルが入力データの関連部分に選択的に焦点を当てることを可能にし、自然言語処理やコンピューター ビジョンなどの人工知能のいくつかの領域に革命をもたらしました。
最近の研究では、注意ベースのモデルにおける勾配降下法 (GD) の最適化ダイナミクスとその推奨ソリューションの構造特性が特徴付けられていますが、ミラー降下法 (MD) などのより一般的な最適化アルゴリズムについてはあまり知られていません。
この論文では、$\ell_p$-norm の $p$ 乗として選択されたポテンシャル関数を使用して、ソフトマックス アテンション メカニズムに合わせた MD アルゴリズム ファミリの収束特性と暗黙的なバイアスを調査します。
具体的には、ソフトマックス アテンション モデルを使用して分類問題に適用すると、これらのアルゴリズムが $\ell_p$-norm 目標を持つ一般化ハードマージン SVM への方向に収束することを示します。
特に、我々の理論的結果は、この問題の高度な非線形性と非凸性にもかかわらず、収束率がより単純なモデルにおける従来の GD の収束率に匹敵することを明らかにしています。
さらに、キークエリ行列とデコーダの結合最適化ダイナミクスを詳しく調べ、この複雑な結合最適化がそれぞれのハード マージン SVM ソリューションに収束する条件を確立します。
最後に、実際のデータでの数値実験は、MD アルゴリズムが標準の GD よりも一般化を向上させ、最適なトークンの選択に優れていることを示しています。
要約(オリジナル)
Attention mechanisms have revolutionized several domains of artificial intelligence, such as natural language processing and computer vision, by enabling models to selectively focus on relevant parts of the input data. While recent work has characterized the optimization dynamics of gradient descent (GD) in attention-based models and the structural properties of its preferred solutions, less is known about more general optimization algorithms such as mirror descent (MD). In this paper, we investigate the convergence properties and implicit biases of a family of MD algorithms tailored for softmax attention mechanisms, with the potential function chosen as the $p$-th power of the $\ell_p$-norm. Specifically, we show that these algorithms converge in direction to a generalized hard-margin SVM with an $\ell_p$-norm objective when applied to a classification problem using a softmax attention model. Notably, our theoretical results reveal that the convergence rate is comparable to that of traditional GD in simpler models, despite the highly nonlinear and nonconvex nature of the present problem. Additionally, we delve into the joint optimization dynamics of the key-query matrix and the decoder, establishing conditions under which this complex joint optimization converges to their respective hard-margin SVM solutions. Lastly, our numerical experiments on real data demonstrate that MD algorithms improve generalization over standard GD and excel in optimal token selection.
arxiv情報
著者 | Aaron Alvarado Kristanto Julistiono,Davoud Ataee Tarzanagh,Navid Azizan |
発行日 | 2024-10-18 16:32:06+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google