要約
ユーザーの嗜好を捉えるために、トランスフォーマ・モデルは逐次的なユーザー行動データをモデル化するために広く適用されてきた。トランスフォーマーアーキテクチャーの中核は自己注目メカニズムにあり、これはシーケンスにおけるペアワイズ注目スコアを計算する。順列-等変量の性質により、トークン表現間の注意を高めるために位置エンコーディングが使用される。この設定では、対の注意スコアは意味差と位置差の両方によって導出することができる。しかし、先行研究では、この2種類の差分計測を異なる方法でモデル化することが多く、シーケンスモデリングの表現能力を制限する可能性がある。この問題に対処するため、本論文では、意味差と位置差の両方を定式化する統一的な理論的枠組みを提供する、EulerFormerと名付けられた複雑なベクトル注目による新しい変換器の変形を提案する。EulerFormerは2つの重要な技術的改良を含む。第一に、オイラーの公式を用いてシーケンストークンを極形式の複素ベクトルに効率的に変換する新しい変換関数を採用し、意味情報と位置情報の両方を複素回転形式で統一的にモデル化することを可能にする。第二に、意味文脈に応じて意味回転角度を適応関数で制御できる差分回転メカニズムを開発し、意味文脈と位置情報の適応的統合を可能にする。さらに、EulerFormerにおける文脈表現の等方性を改善するために、位相対比学習課題を提案する。我々の理論的枠組みは高い完全性と一般性を持つ。これは意味的な変化に対してより頑健であり、原理的にはより優れた理論的特性を有する。4つの公開データセットで行った広範な実験により、我々のアプローチの有効性と効率性が実証された。
要約(オリジナル)
To capture user preference, transformer models have been widely applied to model sequential user behavior data. The core of transformer architecture lies in the self-attention mechanism, which computes the pairwise attention scores in a sequence. Due to the permutation-equivariant nature, positional encoding is used to enhance the attention between token representations. In this setting, the pairwise attention scores can be derived by both semantic difference and positional difference. However, prior studies often model the two kinds of difference measurements in different ways, which potentially limits the expressive capacity of sequence modeling. To address this issue, this paper proposes a novel transformer variant with complex vector attention, named EulerFormer, which provides a unified theoretical framework to formulate both semantic difference and positional difference. The EulerFormer involves two key technical improvements. First, it employs a new transformation function for efficiently transforming the sequence tokens into polar-form complex vectors using Euler’s formula, enabling the unified modeling of both semantic and positional information in a complex rotation form.Secondly, it develops a differential rotation mechanism, where the semantic rotation angles can be controlled by an adaptation function, enabling the adaptive integration of the semantic and positional information according to the semantic contexts.Furthermore, a phase contrastive learning task is proposed to improve the isotropy of contextual representations in EulerFormer. Our theoretical framework possesses a high degree of completeness and generality. It is more robust to semantic variations and possesses moresuperior theoretical properties in principle. Extensive experiments conducted on four public datasets demonstrate the effectiveness and efficiency of our approach.
arxiv情報
著者 | Zhen Tian,Wayne Xin Zhao,Changwang Zhang,Xin Zhao,Zhongrui Ma,Ji-Rong Wen |
発行日 | 2024-04-04 14:29:34+00:00 |
arxivサイト | arxiv_id(pdf) |