Superposition Prompting: Improving and Accelerating Retrieval-Augmented Generation

要約

大規模言語モデル (LLM) は成功を収めていますが、特に長いコンテキストを処理する場合には重大な欠点があります。
その推論コストはシーケンスの長さに関して二次関数的に増加するため、検索拡張生成 (RAG) などの一部の実世界のテキスト処理アプリケーションでの展開にはコストがかかります。
さらに、LLM は、プロンプト内の無関係なコンテキストによって出力品質が低下する「気が散る現象」も示します。
これらの欠点に対処するために、我々は、微調整を必要とせずに、事前にトレーニングされたトランスベースの LLM に直接適用できる、新しい RAG プロンプト方法論である重ね合わせプロンプトを提案します。
高レベルでは、重ね合わせプロンプトにより、LLM は入力ドキュメントを並行プロンプト パスで処理し、関連性がないとみなされたパスを破棄することができます。
複数の事前トレーニングされた LLM を使用して、さまざまな質問応答ベンチマーク全体で時間効率を同時に向上させるこの方法の機能を実証します。
さらに、取得されたコンテキストがモデルのトレーニングに使用されたコンテキストに比べて大きい場合、私たちの技術は精度を大幅に向上させます。
たとえば、私たちのアプローチは、MPT-7B 命令調整モデルを使用した NaturalQuestions-Open データセットの精度を単純な RAG と比較して 43\% 向上させながら、計算時間を 93 分の 1 に削減することを促進します。

要約(オリジナル)

Despite the successes of large language models (LLMs), they exhibit significant drawbacks, particularly when processing long contexts. Their inference cost scales quadratically with respect to sequence length, making it expensive for deployment in some real-world text processing applications, such as retrieval-augmented generation (RAG). Additionally, LLMs also exhibit the ‘distraction phenomenon,’ where irrelevant context in the prompt degrades output quality. To address these drawbacks, we propose a novel RAG prompting methodology, superposition prompting, which can be directly applied to pre-trained transformer-based LLMs without the need for fine-tuning. At a high level, superposition prompting allows the LLM to process input documents in parallel prompt paths, discarding paths once they are deemed irrelevant. We demonstrate the capability of our method to simultaneously enhance time efficiency across a variety of question-answering benchmarks using multiple pre-trained LLMs. Furthermore, our technique significantly improves accuracy when the retrieved context is large relative the context the model was trained on. For example, our approach facilitates an 93x reduction in compute time while improving accuracy by 43\% on the NaturalQuestions-Open dataset with the MPT-7B instruction-tuned model over naive RAG.

arxiv情報

著者 Thomas Merth,Qichen Fu,Mohammad Rastegari,Mahyar Najibi
発行日 2024-04-10 11:03:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク