要約
大規模言語モデル (LLM) のインコンテキスト学習 (ICL) は、LLM がいくつかの例で強化された命令のみに基づいて予測を行うコミュニティでますます注目を集めています。
ICL の既存のサンプル選択方法は、スパースまたはデンス リトリーバーを利用し、効果的なパフォーマンスを引き出します。
ただし、これらの方法は、検索者を訓練するために LLM の直接フィードバックを利用していないため、選択された例が必ずしも LLM の類推能力を向上させることができるわけではありません。
これに取り組むために、私たちは、言語モデル (LM) セレクターと LLM ジェネレーターで構成される、例選択 (RLS) のためのポリシーベースの強化学習フレームワークを提案します。
LM セレクターは、候補サンプルを高密度表現にエンコードし、上位 k 個のサンプルを選択して LLM のデモンストレーションに組み込みます。
LLM の出力は、LM セレクターを最適化するための報酬とポリシーの勾配を計算するために採用されます。
私たちはさまざまなデータセットで実験を実施し、既存のサンプル選択方法を大幅に上回ります。
さらに、私たちのアプローチは、少数のショット設定で教師あり微調整 (SFT) モデルよりも優れていることがわかります。
さらなる実験により、存在量のバランスと例のテストケースとの類似性が LLM の ICL パフォーマンスにとって重要であることが示されました。
要約(オリジナル)
In-context learning (ICL) of large language models (LLMs) has attracted increasing attention in the community where LLMs make predictions only based on instructions augmented with a few examples. Existing example selection methods for ICL utilize sparse or dense retrievers and derive effective performance. However, these methods do not utilize direct feedback of LLM to train the retriever and the examples selected can not necessarily improve the analogy ability of LLM. To tackle this, we propose our policy-based reinforcement learning framework for example selection (RLS), which consists of a language model (LM) selector and an LLM generator. The LM selector encodes the candidate examples into dense representations and selects the top-k examples into the demonstration for LLM. The outputs of LLM are adopted to compute the reward and policy gradient to optimize the LM selector. We conduct experiments on different datasets and significantly outperform existing example selection methods. Moreover, our approach shows advantages over supervised finetuning (SFT) models in few shot setting. Further experiments show the balance of abundance and the similarity with the test case of examples is important for ICL performance of LLM.
arxiv情報
著者 | Haowei Du,Dongyan Zhao |
発行日 | 2024-08-23 12:32:12+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google