要約
長いテキストの処理に適用される場合、ラージ言語モデル (LLM) はコンテキスト ウィンドウによって制限されます。
この制限に対処する既存の取り組みには、トレーニングに特化したアーキテクチャが含まれており、既製の LLM に簡単に適用することはできません。
我々は、追加のトレーニングなしで既製の LLM のコンテキスト ウィンドウの制限を緩和する方法である Parallel Context Windows (PCW) を紹介します。
このアプローチの鍵は、長いコンテキストをチャンク (「ウィンドウ」) に分割し、アテンション メカニズムを各ウィンドウ内のみに適用するように制限し、ウィンドウ全体で位置埋め込みを再利用することです。
私たちの主な結果では、7 億 5,000 万から 1,780 億のパラメーターのサイズのモデルを使用してコンテキスト内学習における PCW アプローチをテストし、多様な入出力空間を持つタスクの大幅な改善を示しています。
長いコンテキスト ウィンドウが有益である可能性がある他の設定、つまりマルチホップの質問と、複数の取得されたドキュメントを使用した検索拡張質問応答での追加の利点を示します。
私たちの結果は、長いテキスト シーケンスを必要とするさまざまな設定で既製の LLM を適用するための有望な方法として、並列コンテキスト ウィンドウを強調しています。
コードは https://github.com/ai21labs/Parallel-context-windows で公開しています。
要約(オリジナル)
When applied to processing long text, Large Language Models (LLMs) are limited by their context window. Existing efforts to address this limitation involve training specialized architectures, and cannot be easily applied to off-the-shelf LLMs. We present Parallel Context Windows (PCW), a method that alleviates the context window restriction for any off-the-shelf LLM without further training. The key to the approach is to carve a long context into chunks (“windows”), restrict the attention mechanism to apply only within each window, and re-use the positional embeddings across the windows. Our main results test the PCW approach on in-context learning with models that range in size between 750 million and 178 billion parameters, and show substantial improvements for tasks with diverse input and output spaces. We show additional benefits in other settings where long context windows may be beneficial: multi-hop questions and retrieval-augmented question answering with multiple retrieved documents. Our results highlight Parallel Context Windows as a promising method for applying off-the-shelf LLMs in a range of settings that require long text sequences. We make our code publicly available at https://github.com/ai21labs/parallel-context-windows.
arxiv情報
著者 | Nir Ratner,Yoav Levine,Yonatan Belinkov,Ori Ram,Inbal Magar,Omri Abend,Ehud Karpas,Amnon Shashua,Kevin Leyton-Brown,Yoav Shoham |
発行日 | 2023-08-01 16:48:47+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google