要約
我々は、事前に学習された大規模言語モデルを、元のモデルが学習データを見たことがない、あるいはほとんど見たことがない言語を追加するなど、学習時には見られなかった新しいドメインに拡張する問題を扱う。fine-tuningやlow-rank adaptationのような一般的な解決策はドメイン適応に成功するが、形式的には余分な能力を追加せず、元のドメインでの性能を低下させる。 本論文では、この拡張問題を、データ、アーキテクチャ、学習手順という3つの角度から分析し、これらを合同で考慮することで、有利に解決する。特に、我々はアダプタを改良し、ニューラルネットワークの出力が元のドメインでほとんど変わらないことを保証しながら、新しい言語全体を学習できるようにする。この目的のために、それぞれの新しい残差ブロックが元の領域でゼロに近い出力をするように、新しい残差ブロックを修正する。 この中立残差の解決策は、専門家の混合物からアーキテクチャの構成要素を借用するもので、効果的である。英語で学習した元のモデルと比較して、学習可能な重みをわずか20%追加するだけで、新しい言語の学習と英語を忘れないこととのトレードオフの点で、同時並行のアプローチ(ファインチューニング、低ランクまたはバニラアダプター)よりも大幅に優れた結果を得ることができる。
要約(オリジナル)
We address the problem of extending a pretrained large language model to a new domain that was not seen at training time, like adding a language for which the original model has seen no or little training data. Popular solutions like fine-tuning or low-rank adaptation are successful at domain adaptation, but formally they do not add any extra capacity and degrade the performance in the original domain. Our paper analyzes this extension problem under three angles: data, architecture and training procedure, which are advantageously considered jointly. In particular, we improve adapters and make it possible to learn an entire new language while ensuring that the output of the neural network is almost unchanged in the original domain. For this purpose, we modify the new residual blocks in a way that leads each new residual block to output near-zeros in the original domain. This solution of neutral residues, which borrows architectural components from mixture of experts, is effective: with only 20% extra learnable weights compared to an original model trained on English, we get results that are significantly better than concurrent approaches (fine-tuning, low-rank or vanilla adapters) in terms of the trade-off between learning a new language and not forgetting English.
arxiv情報
著者 | Franck Signe Talla,Herve Jegou,Edouard Grave |
発行日 | 2024-10-03 17:55:17+00:00 |
arxivサイト | arxiv_id(pdf) |