要約
新しいドメインで言語モデルを微調整することは、ドメイン適応の標準的な方法です。
ただし、GPT-3 など、API を介してのみアクセスできる最新の大規模な言語モデルになると、モデルの内部パラメーターへのアクセスが困難になるため、実現不可能な場合があります。
この論文では、これらのブラックボックスの大規模言語モデル (LLM) を新しいドメインに効果的に適応させる方法である $k$NN-Adapter を提案します。
$k$NN-Adapter は、検索が強化された言語モデルの上に構築され、ターゲット ドメイン データで構成されるデータストアからの検索結果を言語モデルの出力に補間することを適応的に学習します。
4 つの異なるドメインでの実験では、$k$NN-Adapter が困惑を大幅に改善し、LLM へのアクセスが制限された環境で特にうまく機能することが示されました。
さらに、トレーニング データの量が限られている場合、$k$NN-Adapter は微調整よりも効果的であることを示します。
また、さらなる研究を促すためのデータセットも公開しています。
要約(オリジナル)
Fine-tuning a language model on a new domain is standard practice for domain adaptation. However, it can be infeasible when it comes to modern large-scale language models such as GPT-3, which can only be accessed through APIs, making it difficult to access the internal parameters of the model. In this paper, we propose $k$NN-Adapter, a method to effectively adapt these black-box large language models (LLMs) to a new domain. The $k$NN-Adapter builds on top of the retrieval-augmented language model, and adaptively learns to interpolate the output of the language model with retrieval results from a datastore consisting of the target domain data. Our experiments on four different domains demonstrate that $k$NN-Adapter significantly improves perplexity, and works particularly well in settings with limited access to LLMs. Additionally, we show that $k$NN-Adapter is more effective than fine-tuning when the amount of training data is limited. We also release a dataset to encourage further study.
arxiv情報
著者 | Yangsibo Huang,Daogao Liu,Zexuan Zhong,Weijia Shi,Yin Tat Lee |
発行日 | 2023-02-21 18:54:21+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google