In-Context Pretraining: Language Modeling Beyond Document Boundaries

要約

大規模な言語モデル(LM)は現在、文書の接頭辞からトークンを予測するように学習され、長文生成やプロンプト形式のタスクを直接実行できるようになっている。既存の事前学習パイプラインは、ランダムな短い文書セットを連結して入力コンテキストを作成することでLMを学習するが、先行文書は次の文書を予測するためのシグナルを提供しない。その代わりに、我々はIn-Context Pretrainingという新しいアプローチを提示する。これは、言語モデルを一連の関連文書で事前学習することで、文書の境界を越えて読み推論することを明示的に促すものである。各コンテキストに関連文書が含まれるように文書の順序を変更し、既存のプリトレーニングパイプラインを直接適用するだけで、In-Contextプリトレーニングを行うことができる。しかし、この文書並べ替えの問題は難しい。数十億の文書があり、データを繰り返すことなく、全ての文書について文脈類似度を最大にするソートが望まれる。そのために、効率的な最近傍探索で関連文書を見つけ、グラフ探索アルゴリズムで首尾一貫した入力コンテキストを構築する近似アルゴリズムを導入する。我々の実験によれば、In-Context Pre-Trainingは、LMの性能を大幅に向上させるシンプルでスケーラブルなアプローチである。In-Context Learning (+8%)、Reading comprehension (+15%)、Faithfulness to previous context (+16%)、Long-Context reasoning (+5%)、Retrieval Augmentation (+9%)など、より複雑な文脈推論を必要とするタスクにおいて顕著な改善が見られる。

要約(オリジナル)

Large language models (LMs) are currently trained to predict tokens given document prefixes, enabling them to directly perform long-form generation and prompting-style tasks which can be reduced to document completion. Existing pretraining pipelines train LMs by concatenating random sets of short documents to create input contexts but the prior documents provide no signal for predicting the next document. We instead present In-Context Pretraining, a new approach where language models are pretrained on a sequence of related documents, thereby explicitly encouraging them to read and reason across document boundaries. We can do In-Context Pretraining by simply changing the document ordering so that each context contains related documents, and directly applying existing pretraining pipelines. However, this document sorting problem is challenging. There are billions of documents and we would like the sort to maximize contextual similarity for every document without repeating any data. To do this, we introduce approximate algorithms for finding related documents with efficient nearest neighbor search and constructing coherent input contexts with a graph traversal algorithm. Our experiments show In-Context Pretraining offers a simple and scalable approach to significantly enhance LMs’performance: we see notable improvements in tasks that require more complex contextual reasoning, including in-context learning (+8%), reading comprehension (+15%), faithfulness to previous contexts (+16%), long-context reasoning (+5%), and retrieval augmentation (+9%).

arxiv情報

著者 Weijia Shi,Sewon Min,Maria Lomeli,Chunting Zhou,Margaret Li,Rich James,Xi Victoria Lin,Noah A. Smith,Luke Zettlemoyer,Scott Yih,Mike Lewis
発行日 2023-11-30 23:26:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク