要約
$p$-ラプラシアン正則化は、グラフと画像信号処理に根ざしており、これらのデータに対する正則化効果を制御するパラメータ $p$ を導入します。
$p$ の値が小さいほど、スパース性と解釈性が促進され、値が大きいほど、よりスムーズな解決が促進されます。
この論文では、まず自己注意メカニズムが最小のラプラシアン正則化 ($p=2$) を獲得し、アーキテクチャの滑らかさを促進することを示します。
ただし、この滑らかさは、近接したトークンと近接していないトークン間の注意の重みが区別できないように割り当てられるトランスフォーマーの自己注意の異好性構造には適していません。
その洞察から、我々は新しいクラスの変換器、すなわち $p$-ラプラシアン変換器 (p-LaT) を提案します。これは、 $p$-ラプラシアン正則化フレームワークを利用して、セルフアテンション層内の異好性特徴を利用します。
特に、$p$ 値が低いと、処理中の現在のトークンに非常に近いトークンに、より高い注意の重みが効果的に割り当てられます。
私たちは、幅広いベンチマーク データセットで、ベースライン変換器に対する p-LaT の利点を経験的に実証します。
要約(オリジナル)
$p$-Laplacian regularization, rooted in graph and image signal processing, introduces a parameter $p$ to control the regularization effect on these data. Smaller values of $p$ promote sparsity and interpretability, while larger values encourage smoother solutions. In this paper, we first show that the self-attention mechanism obtains the minimal Laplacian regularization ($p=2$) and encourages the smoothness in the architecture. However, the smoothness is not suitable for the heterophilic structure of self-attention in transformers where attention weights between tokens that are in close proximity and non-close ones are assigned indistinguishably. From that insight, we then propose a novel class of transformers, namely the $p$-Laplacian Transformer (p-LaT), which leverages $p$-Laplacian regularization framework to harness the heterophilic features within self-attention layers. In particular, low $p$ values will effectively assign higher attention weights to tokens that are in close proximity to the current token being processed. We empirically demonstrate the advantages of p-LaT over the baseline transformers on a wide range of benchmark datasets.
arxiv情報
著者 | Tuan Nguyen,Tam Nguyen,Vinh Nguyen,Tan M. Nguyen |
発行日 | 2023-11-06 16:25:56+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google