要約
大規模言語モデル (LLM) は、コンテキスト内で学習する能力を実証しており、いくつかの入出力例に基づいてさまざまなタスクを実行できます。
ただし、コンテキスト内学習の有効性は、選択されたサンプルの品質に大きく依存します。
この論文では、LLM の高品質なコンテキスト内サンプルを識別できる高密度リトリーバーを反復的にトレーニングするための新しいフレームワークを提案します。
私たちのフレームワークは、最初に LLM フィードバックに基づいて報酬モデルをトレーニングして候補サンプルの品質を評価し、続いて知識を蒸留してバイエンコーダーベースのデンスリトリーバーをトレーニングします。
30 個のタスクからなる一連の実験では、フレームワークがコンテキスト内の学習パフォーマンスを大幅に向上させることが実証されました。
さらに、トレーニング中に目に見えないタスクに対するフレームワークの一般化能力を示します。
詳細な分析により、このモデルは類似のパターンを持つサンプルを取得することでパフォーマンスが向上し、さまざまなサイズの LLM にわたってゲインが一貫していることが明らかになりました。
要約(オリジナル)
Large language models (LLMs) have demonstrated their ability to learn in-context, allowing them to perform various tasks based on a few input-output examples. However, the effectiveness of in-context learning is heavily reliant on the quality of the selected examples. In this paper, we propose a novel framework to iteratively train dense retrievers that can identify high-quality in-context examples for LLMs. Our framework initially trains a reward model based on LLM feedback to evaluate the quality of candidate examples, followed by knowledge distillation to train a bi-encoder based dense retriever. Our experiments on a suite of 30 tasks demonstrate that our framework significantly enhances in-context learning performance. Furthermore, we show the generalization ability of our framework to unseen tasks during training. An in-depth analysis reveals that our model improves performance by retrieving examples with similar patterns, and the gains are consistent across LLMs of varying sizes.
arxiv情報
著者 | Liang Wang,Nan Yang,Furu Wei |
発行日 | 2023-07-14 05:23:08+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google