Long-range Language Modeling with Self-retrieval

要約

検索拡張言語モデル (LM) は最近大きな注目を集めています。
ただし、通常、レトリーバーは LM のネイティブ コンポーネントとして共同でトレーニングされるのではなく、すでに事前トレーニングされた LM に追加されるため、LM とレトリーバーが相互に適応する能力が制限されます。
この研究では、長いテキストをモデル化するタスクのために検索拡張 LM をゼロから共同トレーニングするためのアーキテクチャおよびトレーニング手順である、検索事前トレーニング済みトランスフォーマー (RPT) を提案します。
長いドキュメント内に最近生成されたテキスト チャンクが与えられると、LM はクエリ表現を計算し、そのクエリ表現を使用してドキュメント内の以前のチャンク (数万個のトークンよりも前に位置する可能性があります) を取得します。
取得されたチャンクからの情報は LM 表現に融合され、次のターゲット チャンクを予測します。
意味論的な目的を持って取得コンポーネントをトレーニングします。目標は、参照 LM に従って、次のチャンクの確率を高めるチャンクを取得することです。
私たちは、書籍、コード、数学的記述にまたがる 4 つの長期言語モデリング タスクで RPT を評価し、強力なベースラインと比較して、RPT が検索品質とその後の複雑さを全体的に向上させることを実証しました。

要約(オリジナル)

Retrieval-augmented language models (LMs) have received much attention recently. However, typically the retriever is not trained jointly as a native component of the LM, but added to an already-pretrained LM, which limits the ability of the LM and the retriever to adapt to one another. In this work, we propose the Retrieval-Pretrained Transformer (RPT), an architecture and training procedure for jointly training a retrieval-augmented LM from scratch for the task of modeling long texts. Given a recently generated text chunk in a long document, the LM computes query representations, which are then used to retrieve earlier chunks in the document, located potentially tens of thousands of tokens before. Information from retrieved chunks is fused into the LM representations to predict the next target chunk. We train the retriever component with a semantic objective, where the goal is to retrieve chunks that increase the probability of the next chunk, according to a reference LM. We evaluate RPT on four long-range language modeling tasks, spanning books, code, and mathematical writing, and demonstrate that RPT improves retrieval quality and subsequently perplexity across the board compared to strong baselines.

arxiv情報

著者 Ohad Rubin,Jonathan Berant
発行日 2023-06-23 10:18:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク