要約
大規模言語モデル (LLM) は、コンテキスト内で学習する能力を実証しており、いくつかの入出力例に基づいてさまざまなタスクを実行できます。
ただし、コンテキスト内学習の有効性は、選択されたサンプルの品質に大きく依存します。
この論文では、LLM の高品質なコンテキスト内サンプルを識別できる高密度リトリーバーを反復的にトレーニングするための新しいフレームワークを提案します。
私たちのフレームワークは、最初に LLM フィードバックに基づいて報酬モデルをトレーニングして候補サンプルの品質を評価し、続いて知識を蒸留してバイエンコーダーベースのデンスリトリーバーをトレーニングします。
一連の $30$ のタスクに関する私たちの実験では、私たちのフレームワークがコンテキスト内の学習パフォーマンスを大幅に向上させることが実証されました。
さらに、トレーニング中に目に見えないタスクに対するフレームワークの一般化能力を示します。
詳細な分析により、このモデルは類似のパターンを持つサンプルを取得することでパフォーマンスが向上し、さまざまなサイズの LLM にわたってゲインが一貫していることが明らかになりました。
コードとデータは https://github.com/microsoft/LMOps/tree/main/llm_retriever で入手できます。
要約(オリジナル)
Large language models (LLMs) have demonstrated their ability to learn in-context, allowing them to perform various tasks based on a few input-output examples. However, the effectiveness of in-context learning is heavily reliant on the quality of the selected examples. In this paper, we propose a novel framework to iteratively train dense retrievers that can identify high-quality in-context examples for LLMs. Our framework initially trains a reward model based on LLM feedback to evaluate the quality of candidate examples, followed by knowledge distillation to train a bi-encoder based dense retriever. Our experiments on a suite of $30$ tasks demonstrate that our framework significantly enhances in-context learning performance. Furthermore, we show the generalization ability of our framework to unseen tasks during training. An in-depth analysis reveals that our model improves performance by retrieving examples with similar patterns, and the gains are consistent across LLMs of varying sizes. The code and data are available at https://github.com/microsoft/LMOps/tree/main/llm_retriever .
arxiv情報
著者 | Liang Wang,Nan Yang,Furu Wei |
発行日 | 2024-01-26 07:04:02+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google