Base of RoPE Bounds Context Length

要約

位置の埋め込みは、現在の大規模言語モデル (LLM) の中核コンポーネントです。
回転位置埋め込み (RoPE) は、回転行列を使用して位置情報をエンコードする技術であり、Llama シリーズなどの多くの LLM における位置埋め込みの事実上の選択となっています。
RoPE は、ロング コンテキスト機能を拡張するためにさらに利用されています。これは、位置埋め込みにおける分布外 (OOD) 問題を軽減するために、RoPE の \textit{base} パラメーターを調整することにほぼ基づいています。
しかし、この論文では、LLM が OOD 理論に基づいて表面的なロングコンテキスト能力を獲得できる可能性があることを発見しました。
私たちは LLM における RoPE の役割を再考し、長期減衰の新しい特性を提案します。\textit{RoPE のベースがコンテキスト長を制限する}: 特定のコンテキスト長機能を取得するためのベース値には絶対的な下限が存在することを導き出します。

私たちの研究により、コンテキストの長さと RoPE ベースの関係が理論的にも経験的にも明らかになり、将来の長いコンテキストのトレーニングに光が当たる可能性があります。

要約(オリジナル)

Position embedding is a core component of current Large Language Models (LLMs). Rotary position embedding (RoPE), a technique that encodes the position information with a rotation matrix, has been the de facto choice for position embedding in many LLMs, such as the Llama series. RoPE has been further utilized to extend long context capability, which is roughly based on adjusting the \textit{base} parameter of RoPE to mitigate out-of-distribution (OOD) problems in position embedding. However, in this paper, we find that LLMs may obtain a superficial long-context ability based on the OOD theory. We revisit the role of RoPE in LLMs and propose a novel property of long-term decay, we derive that the \textit{base of RoPE bounds context length}: there is an absolute lower bound for the base value to obtain certain context length capability. Our work reveals the relationship between context length and RoPE base both theoretically and empirically, which may shed light on future long context training.

arxiv情報

著者 Xin Men,Mingyu Xu,Bingning Wang,Qingyu Zhang,Hongyu Lin,Xianpei Han,Weipeng Chen
発行日 2024-05-23 14:03:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク