要約
この論文では、検索拡張エンコーダ/デコーダ言語モデルのコンテキスト内学習能力を調査します。
まず、最先端の ATLAS モデルの包括的な分析を実施し、主に事前トレーニングとテストの間の不一致、および制限されたコンテキストの長さに起因する、コンテキスト内学習におけるその限界を特定します。
これらの問題に対処するために、検索拡張マスク言語モデリングと接頭辞言語モデリングを組み合わせたモデルである RAVEN を提案します。
さらに、追加のトレーニングやモデルの変更を必要とせずにモデルがより多くのコンテキスト内サンプルを活用できるようにすることで、フュージョンインコンテキスト学習を導入し、数ショットのパフォーマンスを向上させます。
広範な実験を通じて、RAVEN が ATLAS を大幅に上回り、パラメーターが大幅に少ないにもかかわらず、特定のシナリオで最も高度な言語モデルに匹敵する結果を達成できることを実証しました。
私たちの研究は、コンテキスト内学習のための検索拡張エンコーダ/デコーダ言語モデルの可能性を強調し、この方向でのさらなる研究を奨励します。
要約(オリジナル)
In this paper, we investigate the in-context learning ability of retrieval-augmented encoder-decoder language models. We first conduct a comprehensive analysis of the state-of-the-art ATLAS model and identify its limitations in in-context learning, primarily due to a mismatch between pretraining and testing, as well as a restricted context length. To address these issues, we propose RAVEN, a model that combines retrieval-augmented masked language modeling and prefix language modeling. We further introduce Fusion-in-Context Learning to enhance the few-shot performance by enabling the model to leverage more in-context examples without requiring additional training or model modifications. Through extensive experiments, we demonstrate that RAVEN significantly outperforms ATLAS and achieves results comparable to the most advanced language models in certain scenarios, despite having substantially fewer parameters. Our work underscores the potential of retrieval-augmented encoder-decoder language models for in-context learning and encourages further research in this direction.
arxiv情報
著者 | Jie Huang,Wei Ping,Peng Xu,Mohammad Shoeybi,Kevin Chen-Chuan Chang,Bryan Catanzaro |
発行日 | 2023-08-15 17:59:18+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google