要約
多くのラベルを持つタスクに対して大規模な言語モデルを使用するインコンテキスト学習 (ICL) は、コンテキスト ウィンドウが限られているため困難であり、プロンプトに十分な数の例を収めるのが困難です。
このペーパーでは、事前トレーニングされた高密度検索モデルを使用してこの制限を回避し、各推論呼び出しの完全なラベル空間の部分的なビューのみをモデルに提供します。
最近のオープンソース LLM (OPT、LLaMA) を使用したテストでは、微調整を行わずに、3 つの一般的なインテント分類データセットの少数ショット設定で新しい最先端のパフォーマンスを設定しました。
また、特定のケースでは、きめ細かいセンチメント分類において、微調整されたパフォーマンスを上回ります。
私たちは、コンテキスト内サンプルの数とさまざまなモデル スケールにわたるパフォーマンスを分析し、ICL でより長いコンテキスト長を効果的かつ一貫して利用するには、より大きなモデルが必要であることを示しています。
いくつかのアブレーションを実行することにより、a) コンテキスト内の例と現在の入力との類似性、b) クラス名の意味内容、c) 例とラベル間の正しい対応に関するモデルの使用を分析します。
最近の一部の研究とは対照的に、領域に応じてさまざまな程度で 3 つすべてが必要であることを示します。
要約(オリジナル)
In-context learning (ICL) using large language models for tasks with many labels is challenging due to the limited context window, which makes it difficult to fit a sufficient number of examples in the prompt. In this paper, we use a pre-trained dense retrieval model to bypass this limitation, giving the model only a partial view of the full label space for each inference call. Testing with recent open-source LLMs (OPT, LLaMA), we set new state of the art performance in few-shot settings for three common intent classification datasets, with no finetuning. We also surpass fine-tuned performance on fine-grained sentiment classification in certain cases. We analyze the performance across number of in-context examples and different model scales, showing that larger models are necessary to effectively and consistently make use of larger context lengths for ICL. By running several ablations, we analyze the model’s use of: a) the similarity of the in-context examples to the current input, b) the semantic content of the class names, and c) the correct correspondence between examples and labels. We demonstrate that all three are needed to varying degrees depending on the domain, contrary to certain recent works.
arxiv情報
著者 | Aristides Milios,Siva Reddy,Dzmitry Bahdanau |
発行日 | 2023-12-06 03:34:00+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google