YaRN: Efficient Context Window Extension of Large Language Models

要約

Rotary Position Embedding (RoPE) は、トランスフォーマーベースの言語モデルで位置情報を効果的にエンコードすることが示されています。
ただし、これらのモデルは、トレーニングされたシーケンス長を超えて一般化できません。
我々は、このようなモデルのコンテキスト ウィンドウを拡張するための計算効率の高い方法である YaRN (Yet another RoPE extensioN Method) を紹介します。これは、以前の方法よりもトークンが 10 分の 1、トレーニング ステップが 2.5 分の 1 少なくなります。
YaRN を使用することで、LLaMA モデルが、元の事前トレーニングで許可されるよりもはるかに長いコンテキスト長を効果的に利用して推定できると同時に、コンテキスト ウィンドウ拡張においても以前の最先端を上回っていることを示します。
さらに、YaRN が微調整データセットの限定されたコンテキストを超えて外挿する機能を示すことを実証します。
YaRN を使用して微調整されたモデルは、https://github.com/jquesnelle/yarn で最大 128,000 コンテキスト長までオンラインで利用可能および複製されています。

要約(オリジナル)

Rotary Position Embeddings (RoPE) have been shown to effectively encode positional information in transformer-based language models. However, these models fail to generalize past the sequence length they were trained on. We present YaRN (Yet another RoPE extensioN method), a compute-efficient method to extend the context window of such models, requiring 10x less tokens and 2.5x less training steps than previous methods. Using YaRN, we show that LLaMA models can effectively utilize and extrapolate to context lengths much longer than their original pre-training would allow, while also surpassing previous the state-of-the-art at context window extension. In addition, we demonstrate that YaRN exhibits the capability to extrapolate beyond the limited context of a fine-tuning dataset. The models fine-tuned using YaRN has been made available and reproduced online up to 128k context length at https://github.com/jquesnelle/yarn

arxiv情報

著者 Bowen Peng,Jeffrey Quesnelle,Honglu Fan,Enrico Shippole
発行日 2023-11-01 17:28:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク