In-Context Learning for Attention Scheme: from Single Softmax Regression to Multiple Softmax Regression via a Tensor Trick

要約

大規模言語モデル (LLM) は、人間社会に重大かつ変革的な変化をもたらしました。
これらのモデルは、自然言語の理解と生成において顕著な能力を実証しており、いくつかの領域にわたってさまざまな進歩と影響をもたらしています。
この研究では、注意関連回帰の 2 つの定式化に基づいてコンテキスト内学習を検討します。
与えられた行列 $A_1​​ \in \mathbb{R}^{n \times d}$ と $A_2 \in \mathbb{R}^{n \times d}$ および $B \in \mathbb{R}^{
n \times n}$、目的はいくつかの最適化問題を解決することです: 正規化されたバージョン $\min_{X} \|
D(X)^{-1} \exp(A_1 X A_2^\top) – B \|_F^2$ および再スケーリングされたバージョン $\|
\exp(A_1 X A_2^\top) – D(X) \cdot B \|_F^2$。
ここで $D(X) := \mathrm{diag}( \exp(A_1 X A_2^\top) {\bf 1}_n )$ となります。
私たちの回帰問題は、ソフトマックス関連の回帰に関する以前の研究と類似点を共有しています。
以前の研究では、ソフトマックス回帰に関連する回帰手法が広範囲に調査されてきました。正規化バージョン $\|
\langle \exp(Ax) , {\bf 1}_n \rangle^{-1} \exp(Ax) – b \|_2^2$ および再スケーリングされたバージョン $\|
\exp(Ax) – \langle \exp(Ax), {\bf 1}_n \rangle b \|_2^2 $ 以前のアプローチとは対照的に、行列定式化における回帰問題に対処するためにベクトル化手法を採用します。
このアプローチは、前述の回帰問題の定式化に似て、次元を $d$ から $d^2$ に拡張します。
回帰関数のリップシッツ分析が完了すると、コンテキスト内学習に関する主な結果が得られました。

要約(オリジナル)

Large language models (LLMs) have brought significant and transformative changes in human society. These models have demonstrated remarkable capabilities in natural language understanding and generation, leading to various advancements and impacts across several domains. We consider the in-context learning under two formulation for attention related regression in this work. Given matrices $A_1 \in \mathbb{R}^{n \times d}$, and $A_2 \in \mathbb{R}^{n \times d}$ and $B \in \mathbb{R}^{n \times n}$, the purpose is to solve some certain optimization problems: Normalized version $\min_{X} \| D(X)^{-1} \exp(A_1 X A_2^\top) – B \|_F^2$ and Rescaled version $\| \exp(A_1 X A_2^\top) – D(X) \cdot B \|_F^2$. Here $D(X) := \mathrm{diag}( \exp(A_1 X A_2^\top) {\bf 1}_n )$. Our regression problem shares similarities with previous studies on softmax-related regression. Prior research has extensively investigated regression techniques related to softmax regression: Normalized version $\| \langle \exp(Ax) , {\bf 1}_n \rangle^{-1} \exp(Ax) – b \|_2^2$ and Resscaled version $\| \exp(Ax) – \langle \exp(Ax), {\bf 1}_n \rangle b \|_2^2 $ In contrast to previous approaches, we adopt a vectorization technique to address the regression problem in matrix formulation. This approach expands the dimension from $d$ to $d^2$, resembling the formulation of the regression problem mentioned earlier. Upon completing the lipschitz analysis of our regression function, we have derived our main result concerning in-context learning.

arxiv情報

著者 Yeqi Gao,Zhao Song,Shenghao Xie
発行日 2023-07-05 16:41:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク