要約
本稿では、小規模言語モデルのLoRAアダプタを任意の下流タスクに適応させる手法を紹介する。標準的なエキスパート混合アーキテクチャとは異なり、本手法は、学習や推論に必要な計算量を増加させることなく、エキスパートの重み付けされた組み合わせを選択する勾配なしルーティング関数を用いる。その結果、LoRAアダプタのトークン・レベル適応は、数学(GSM8K)、科学(ARC-Challenge)、読解(SQuAD)、コーディング(CodeAlpaca-20k)の各タスクにおいて、基本モデルであるLlama-2-7bを凌駕することが示された。さらに、トークン・レベル適応の平均性能は、推論中の他のトークンへの適応において最高の性能が観測された各タスク用に微調整された個々のモデルを凌駕することが示された。本研究のコードは公開リポジトリを通じて利用可能である。
要約(オリジナル)
This paper introduces a method for adapting LoRA adapters in smaller-sized language models to arbitrary downstream tasks. Unlike standard mixture-of-expert architectures, our method employs a gradient-free routing function to choose a weighted combination of experts without increasing the compute requirements for training or inference. The results show that token-level adaptation of LoRA adapters outperforms the base Llama-2-7b model across mathematical (GSM8K), scientific (ARC-Challenge), reading comprehension (SQuAD), and coding (CodeAlpaca-20k) tasks. Further evaluations also show that the average performance of token-level adaptation outperforms individual models fine-tuned for each of the tasks with the best performance observed in adaptation of every-other token during inference. The code for this study is made available through a public repository.
arxiv情報
著者 | Joshua Belofsky |
発行日 | 2023-12-01 06:38:18+00:00 |
arxivサイト | arxiv_id(pdf) |