Improving Retrieval-Augmented Large Language Models via Data Importance Learning

要約

検索拡張により、大規模な言語モデルで、たとえば質問応答やデータ代入などのタスクで外部知識を利用できるようになります。
ただし、このような検索拡張モデルのパフォーマンスは、基礎となる検索コーパスのデータ品質によって制限されます。
本稿では、取得したデータ点のデータ重要性を評価するための多重線形拡張に基づくアルゴリズムを提案する。
多重線形拡張には指数関数的に多くの項があり、この論文の重要な貢献の 1 つは、加法効用関数と検証セットを備えた検索拡張モデルを考慮して、データ ポイントのデータ重要度を正確に計算する多項式時間アルゴリズムです。
モデルの効用関数の多線形拡張を使用した検索コーパス。
さらに、さらに効率的な ({\epsilon}, {\delta}) 近似アルゴリズムを提案しました。
私たちの実験結果は、さらなるトレーニングを必要とせずに、検索コーパスを枝刈りまたは再重み付けするだけで大​​規模な言語モデルのパフォーマンスを向上できることを示しています。
一部のタスクでは、これにより、検索エンジン API で強化された小規模モデル (GPT-JT など) が GPT-3.5 (検索強化なし) を上回るパフォーマンスを発揮することさえ可能になります。
さらに、多重線形拡張に基づく重みが実際に効率的に計算できることを示します(たとえば、1 億要素のコーパスの場合は 10 分未満で)。

要約(オリジナル)

Retrieval augmentation enables large language models to take advantage of external knowledge, for example on tasks like question answering and data imputation. However, the performance of such retrieval-augmented models is limited by the data quality of their underlying retrieval corpus. In this paper, we propose an algorithm based on multilinear extension for evaluating the data importance of retrieved data points. There are exponentially many terms in the multilinear extension, and one key contribution of this paper is a polynomial time algorithm that computes exactly, given a retrieval-augmented model with an additive utility function and a validation set, the data importance of data points in the retrieval corpus using the multilinear extension of the model’s utility function. We further proposed an even more efficient ({\epsilon}, {\delta})-approximation algorithm. Our experimental results illustrate that we can enhance the performance of large language models by only pruning or reweighting the retrieval corpus, without requiring further training. For some tasks, this even allows a small model (e.g., GPT-JT), augmented with a search engine API, to outperform GPT-3.5 (without retrieval augmentation). Moreover, we show that weights based on multilinear extension can be computed efficiently in practice (e.g., in less than ten minutes for a corpus with 100 million elements).

arxiv情報

著者 Xiaozhong Lyu,Stefan Grafberger,Samantha Biegel,Shaopeng Wei,Meng Cao,Sebastian Schelter,Ce Zhang
発行日 2023-07-06 14:44:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR, cs.LG パーマリンク