要約
回転位置埋め込み(Rotary Position Embeddings:RoPE)は、変換器ベースの言語モデルにおいて位置情報を効果的にエンコードすることが示されている。しかし、これらのモデルは学習した配列長を越えて汎化することができない。我々はYaRN(Yet another RoPE extensioN method)を発表する。これは、このようなモデルのコンテキストウィンドウを拡張するための計算効率の良い手法であり、従来の手法よりも10倍少ないトークンと2.5倍少ない学習ステップで済む。YaRNを用いることで、LLaMAモデルが効果的に活用され、本来の事前学習が可能にするよりもはるかに長い文脈長に外挿できることを示す。さらに、YaRNが微調整データセットの限られたコンテキストを越えて外挿する能力を示すことを実証する。YaRNを用いて64kと128kのコンテキストウィンドウでファインチューニングしたLlama 2 7B/13Bのチェックポイントをhttps://github.com/jquesnelle/yarn。
要約(オリジナル)
Rotary Position Embeddings (RoPE) have been shown to effectively encode positional information in transformer-based language models. However, these models fail to generalize past the sequence length they were trained on. We present YaRN (Yet another RoPE extensioN method), a compute-efficient method to extend the context window of such models, requiring 10x less tokens and 2.5x less training steps than previous methods. Using YaRN, we show that LLaMA models can effectively utilize and extrapolate to context lengths much longer than their original pre-training would allow, while also surpassing previous the state-of-the-art at context window extension. In addition, we demonstrate that YaRN exhibits the capability to extrapolate beyond the limited context of a fine-tuning dataset. We publish the checkpoints of Llama 2 7B/13B fine-tuned using YaRN with 64k and 128k context windows at https://github.com/jquesnelle/yarn
arxiv情報
著者 | Bowen Peng,Jeffrey Quesnelle,Honglu Fan,Enrico Shippole |
発行日 | 2023-08-31 18:18:07+00:00 |
arxivサイト | arxiv_id(pdf) |