要約
現世代の大規模言語モデルを妨げる顕著な問題の 1 つは、コンテキストの長さが制限されていることです。
GPT-4 や Claude 2 などの最近の独自モデルでは、それぞれ 8k/32k および 100k というより長いコンテキスト長が導入されています。
ただし、コミュニティの努力にもかかわらず、LLama-2 などのほとんどの一般的なモデルのコンテキスト長は 4k 以下です。
Unlimiformer (Bertsch et al., 2023) は、クロスアテンション計算を kNN インデックスにオフロードする、最近人気のあるベクトル検索拡張手法です。
ただし、その主な制限は、そのままではデコーダ専用トランスフォーマーとの互換性がないことです。
この研究では、Unlimiformer をデコーダ専用トランスフォーマーに適応させるための実際的な考慮事項を検討し、この制限を克服するための一連の変更を導入します。
さらに、要約に関する元の実験設定を拡張して、新しいタスク (つまり、自由形式の Q&A) と命令調整モデル (つまり、カスタム 6.7B GPT モデル) を含めます。
私たちの結果は、要約に対するこれらの変更の有効性を示しており、コンテキスト長が 2 倍のモデルと同等のパフォーマンスを示しています。
さらに、自由形式の Q&A および命令調整モデルの制限と将来の方向性についても説明します。
要約(オリジナル)
One of the prominent issues stifling the current generation of large language models is their limited context length. Recent proprietary models such as GPT-4 and Claude 2 have introduced longer context lengths, 8k/32k and 100k, respectively; however, despite the efforts in the community, most common models, such as LLama-2, have a context length of 4k or less. Unlimiformer (Bertsch et al., 2023) is a recently popular vector-retrieval augmentation method that offloads cross-attention computations to a kNN index. However, its main limitation is incompatibility with decoder-only transformers out of the box. In this work, we explore practical considerations of adapting Unlimiformer to decoder-only transformers and introduce a series of modifications to overcome this limitation. Moreover, we expand the original experimental setup on summarization to include a new task (i.e., free-form Q&A) and an instruction-tuned model (i.e., a custom 6.7B GPT model). Our results showcase the effectiveness of these modifications on summarization, performing on par with a model with 2x the context length. Moreover, we discuss limitations and future directions for free-form Q&A and instruction-tuned models.
arxiv情報
著者 | Kian Ahrabian,Alon Benhaim,Barun Patra,Jay Pujara,Saksham Singhal,Xia Song |
発行日 | 2024-10-02 15:08:12+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google