Convergence of Two-Layer Regression with Nonlinear Units

要約

ChatGPT や GPT4 などの大規模言語モデル (LLM) は、人間の生活上の多くのタスクにおいて優れたパフォーマンスを示しています。
注意の計算は、LLM のトレーニングにおいて重要な役割を果たします。
Softmax ユニットと ReLU ユニットはアテンション計算における重要な構造です。
彼らに触発されて、私たちはソフトマックス ReLU 回帰問題を提案しました。
一般的に言えば、私たちの目標は、ReLU ユニットに関係する回帰問題の最適な解を見つけることです。
この作業では、損失関数のヘッセ行列の近い形式の表現を計算します。
特定の仮定の下で、リプシッツ連続とヘッセ行列の PSD 性を証明します。
次に、最適解までの距離という意味で収束する近似ニュートン法に基づく貪欲なアルゴリズムを導入します。
最後に、リプシッツ条件を緩和し、損失値の意味での収束を証明します。

要約(オリジナル)

Large language models (LLMs), such as ChatGPT and GPT4, have shown outstanding performance in many human life task. Attention computation plays an important role in training LLMs. Softmax unit and ReLU unit are the key structure in attention computation. Inspired by them, we put forward a softmax ReLU regression problem. Generally speaking, our goal is to find an optimal solution to the regression problem involving the ReLU unit. In this work, we calculate a close form representation for the Hessian of the loss function. Under certain assumptions, we prove the Lipschitz continuous and the PSDness of the Hessian. Then, we introduce an greedy algorithm based on approximate Newton method, which converges in the sense of the distance to optimal solution. Last, We relax the Lipschitz condition and prove the convergence in the sense of loss value.

arxiv情報

著者 Yichuan Deng,Zhao Song,Shenghao Xie
発行日 2023-08-16 13:30:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク