Small Models are Valuable Plug-ins for Large Language Models

要約

GPT-3やGPT-4のような大規模言語モデル(LLM)は強力ですが、その重みはしばしば公開されておらず、その膨大なサイズから一般的なハードウェアでチューニングすることが困難です。その結果、大規模な教師ありデータでこれらのモデルを効果的にチューニングすることは困難な場合があります。また、コンテキスト学習(In-Context Learning: ICL)は、コンテキストの長さに制限があるため、少数の教師ありの例しか利用できない。本論文では、スーパーインコンテキストラーニング(SuperICL)を提案し、ブラックボックスLLMが局所的に微調整された小さなモデルで動作することを可能にし、教師ありタスクで優れた性能を発揮することを明らかにする。我々の実験では、SuperICLが、インコンテキスト学習の不安定性の問題を解決しながら、最先端の微調整されたモデルを超える性能を向上させることができることを実証した。さらに、SuperICLは、多言語性や解釈可能性といった、より小さなモデルの機能を強化することができる。

要約(オリジナル)

Large language models (LLMs) such as GPT-3 and GPT-4 are powerful but their weights are often publicly unavailable and their immense sizes make the models difficult to be tuned with common hardware. As a result, effectively tuning these models with large-scale supervised data can be challenging. As an alternative, In-Context Learning (ICL) can only use a small number of supervised examples due to context length limits. In this paper, we propose Super In-Context Learning (SuperICL) which allows black-box LLMs to work with locally fine-tuned smaller models, resulting in superior performance on supervised tasks. Our experiments demonstrate that SuperICL can improve performance beyond state-of-the-art fine-tuned models while addressing the instability problem of in-context learning. Furthermore, SuperICL can enhance the capabilities of smaller models, such as multilinguality and interpretability.

arxiv情報

著者 Canwen Xu,Yichong Xu,Shuohang Wang,Yang Liu,Chenguang Zhu,Julian McAuley
発行日 2023-05-15 17:59:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク