要約
大規模な言語モデルは多用途のツールですが、小規模な推論予算には適していません。
小規模なモデルは推論の効率が高くなりますが、容量が低いため、範囲を特殊なドメインに限定した場合にのみ良好なパフォーマンスを得ることができます。
このペーパーでは、大規模で汎用的な事前トレーニング セットと限られた量の特殊なデータを使用して、優れた特殊な小型言語モデルを取得する方法を検討します。
(i) 専門化タスクごとにモデルを事前トレーニングする余裕があるか、(ii) タスクごとに単一の事前トレーニング済みモデルを低コストで適応させたいかに応じて、2 つのシナリオを検討します。
最初のシナリオでは、重要度サンプリングに基づいた効果的なソリューションを提案します。つまり、事前トレーニング セットをリサンプリングして特殊化データを模倣し、その上で小さなモデルをトレーニングします。
2 番目のシナリオでは、新しいアーキテクチャである投影型ネットワーク (PN) を提案します。
PN は大規模なネットワークであり、そのパラメータを特殊化するために小規模なネットワークに線形に投影できます。
どちらのシナリオでも、さまざまなドメイン、トレーニング セットのサイズ、トレーニング予算にわたってソリューションの有効性を実証しています。
要約(オリジナル)
Large language models are versatile tools but are not suitable for small inference budgets. Small models have more efficient inference, but their lower capacity means that their performance can be good only if one limits their scope to a specialized domain. This paper explores how to get good specialized small language models using a large, generic, pretraining set and a limited amount of specialized data. We consider two scenarios, depending on whether (i) one can afford pretraining a model for each specialization task, or (ii) one wants to cheaply adapt a single pretrained model for each task. In the first scenario, we propose an effective solution based on importance sampling: we resample the pretraining set to imitate the specialization data and train a small model on it. In the second scenario, we propose a novel architecture, projected networks (PN). PN is a large network whose parameters can be linearly projected into a small network for specialization. For both scenarios, we demonstrate the empirical effectiveness of our solutions across various domains, training set sizes, and training budgets.
arxiv情報
著者 | David Grangier,Angelos Katharopoulos,Pierre Ablin,Awni Hannun |
発行日 | 2024-10-31 15:56:08+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google