Distill or Annotate? Cost-Efficient Fine-Tuning of Compact Models

要約

タイトル:コスト効率的なコンパクトモデルのファインチューニングにおける蒸留または注釈付けをどちらにするか

要約:

– 大型モデルのファインチューニングは効果的だが、これらのモデルを使用して推論を行うことは非常に高価で、二酸化炭素排出量があることが問題となっている。
– 蒸留は、推論コストを削減する実用的な解決策であることが示されているが、蒸留プロセス自体が大量のコンピュータリソースを必要とするため、大量のGPUを購入またはレンタルしてファインチューニングと蒸留を行う必要がある。
– 十分な予算がある場合、NLP実践者であれば、代わりに可能な限り注釈付け作業を行い、追加のファインチューニングデータを手動でラベル付けしてコンパクトなモデルを直接トレーニングすることができる。
– 本稿では、固定予算を最も効率的に使用してコンパクトモデルを構築する方法について調査する。
– 6つの多様なNLPタスクに関する豊富な実験を通じて、T5-XXL(11B)からT5-Small(60M)に蒸留することが、より多くのデータを注釈付けしてコンパクトモデル(T5-Small(60M))を直接トレーニングするよりもほとんど常にコスト効率的なオプションであることを発見した。
– さらに、効用を最大化する最適な蒸留量が予算的なシナリオによって異なることを示している。

要約(オリジナル)

Fine-tuning large models is highly effective, however, inference using these models can be expensive and produces carbon emissions. Knowledge distillation has been shown to be a practical solution to reduce inference costs, but the distillation process itself requires significant computational resources. Rather than buying or renting GPUs to fine-tune, then distill a large model, an NLP practitioner who needs a compact model might also choose to simply allocate an available budget to hire annotators and manually label additional fine-tuning data. In this paper, we investigate how to most efficiently use a fixed budget to build a compact model. Through our extensive experiments on six diverse NLP tasks, we find that distilling from T5-XXL (11B) to T5-Small (60M) leads to almost always a cost-efficient option compared to annotating more data to directly train a compact model (T5-Small (60M)). We further demonstrate that the optimal amount of distillation that maximizes utility varies across different budgetary scenarios.

arxiv情報

著者 Junmo Kang,Wei Xu,Alan Ritter
発行日 2023-05-03 00:36:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL パーマリンク