HoPE: A Novel Positional Encoding Without Long-Term Decay for Enhanced Context Awareness and Extrapolation

要約

多くの位置エンコーディング (PE) は、長年にわたる根深い帰納的見解に基づいて、長期的な減衰を示すように設計されています。つまり、現在の位置から遠く離れたトークンには関連性の低い情報が含まれます。
LLM は現在、任意の位置からコンテキスト内の情報を正確に取得する必要があるタスクに適用されているため、長期減衰は LLM の時代では時代遅れであると私たちは主張します。
まず、さまざまな PE に関する経験的分析を示し、モデルは本質的に局所的な減衰パターンのみで注意を学習する一方で、全体的に U 字型のパターンを形成し、長期減衰の原理に反していることを示します。
さらに、回転位置エンコーディング (RoPE、LLM で広く普及している相対位置エンコーディング) の詳細な分析を行ったところ、U 字型の注意はいくつかの学習されたコンポーネントによって引き起こされ、これが RoPE の表現力と外挿を制限する重要な要素でもあることがわかりました。
これらの洞察に基づいて、私たちは高周波回転位置エンコーディング (HoPE) を提案します。
HoPE は、RoPE の特定のコンポーネントを位置に依存しないコンポーネントに置き換え、高周波信号のみを保持します。これにより、理論上の長期減衰の原理も破られます。
HoPE は 2 つの大きな利点を実現します。 (1) 長期減衰によって課せられる制約がないため、自発的な注意の最適化とモデルの外挿パフォーマンスを制限する矛盾した要因が除去されます。
(2) 位置と意味を表すコンポーネントが最適化されます。
これらは、広範な実験によって検証されたように、モデルのコンテキスト認識と外挿を強化します。

要約(オリジナル)

Many positional encodings (PEs) are designed to exhibit long-term decay, based on an entrenched and long-standing inductive opinion: tokens farther away from the current position carry less relevant information. We argue that long-term decay is outdated in the era of LLMs, as LLMs are now applied to tasks demanding precise retrieval of in-context information from arbitrary positions. Firstly, we present empirical analyses on various PEs, demonstrating that models inherently learn attention with only a local-decay pattern while forming a U-shape pattern globally, contradicting the principle of long-term decay. Furthermore, we conduct a detailed analysis of rotary position encoding (RoPE, a prevalent relative positional encoding in LLMs), and found that the U-shape attention is caused by some learned components, which are also the key factor limiting RoPE’s expressiveness and extrapolation.Inspired by these insights, we propose High-frequency rotary Position Encoding (HoPE). HoPE replaces the specific components in RoPE with position-independent ones, retaining only high-frequency signals, which also breaks the principle of long-term decay in theory. HoPE achieves two major advantages: (1) Without constraints imposed by long-term decay, contradictory factors that limit spontaneous attention optimization and model extrapolation performance are removed. (2) Components representing positions and semantics are are optimized. These enhances model’s context awareness and extrapolation, as validated by extensive experiments.

arxiv情報

著者 Yuhan Chen,Ang Lv,Jian Luan,Bin Wang,Wei Liu
発行日 2024-10-28 17:01:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク