p-Laplacian Transformer


$p$-ラプラシアン正則化は、グラフと画像信号処理に根ざしており、これらのデータに対する正則化効果を制御するパラメータ $p$ を導入します。
$p$ の値が小さいほど、スパース性と解釈性が促進され、値が大きいほど、よりスムーズな解決が促進されます。
この論文では、まず自己注意メカニズムが最小のラプラシアン正則化 ($p=2$) を獲得し、アーキテクチャの滑らかさを促進することを示します。
その洞察から、我々は新しいクラスの変換器、すなわち $p$-ラプラシアン変換器 (p-LaT) を提案します。これは、 $p$-ラプラシアン正則化フレームワークを利用して、セルフアテンション層内の異好性特徴を利用します。
特に、$p$ 値が低いと、処理中の現在のトークンに非常に近いトークンに、より高い注意の重みが効果的に割り当てられます。
私たちは、幅広いベンチマーク データセットで、ベースライン変換器に対する p-LaT の利点を経験的に実証します。


$p$-Laplacian regularization, rooted in graph and image signal processing, introduces a parameter $p$ to control the regularization effect on these data. Smaller values of $p$ promote sparsity and interpretability, while larger values encourage smoother solutions. In this paper, we first show that the self-attention mechanism obtains the minimal Laplacian regularization ($p=2$) and encourages the smoothness in the architecture. However, the smoothness is not suitable for the heterophilic structure of self-attention in transformers where attention weights between tokens that are in close proximity and non-close ones are assigned indistinguishably. From that insight, we then propose a novel class of transformers, namely the $p$-Laplacian Transformer (p-LaT), which leverages $p$-Laplacian regularization framework to harness the heterophilic features within self-attention layers. In particular, low $p$ values will effectively assign higher attention weights to tokens that are in close proximity to the current token being processed. We empirically demonstrate the advantages of p-LaT over the baseline transformers on a wide range of benchmark datasets.


著者 Tuan Nguyen,Tam Nguyen,Vinh Nguyen,Tan M. Nguyen
発行日 2023-11-06 16:25:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG, stat.ML パーマリンク