要約
知識蒸留(KD)は、大規模な言語モデル(LLM)のサイズを縮小するアプローチの1つです。
モデルパラメーターの数が少ないLLM(生徒)は、特定のタスクでより大きなサイズ(教師モデル)のLLMのパフォーマンスを模倣するように訓練されています。
ドメイン固有のタスクの場合、ドメイン適応のために教師または生徒のモデルを考慮する必要があるかどうかは明らかではありません。
この作業では、この問題をテレコムドメイン質問(QA)タスクの観点から研究します。
教師のみの監視された微調整(SFT)、学生のみのSFT、およびKDの前に両方のSFTを体系的に実験します。
蒸留モデルに対する語彙(同じか異なる)およびKDアルゴリズム(バニラKDおよびデュアルスペースKD、DSKD)の影響を研究するための実験を設計します。
14の異なるメトリック(N-Gram、埋め込み、LLMベースのメトリック)を使用した蒸留の多面的な評価が考慮されます。
実験結果は、アルゴリズムやメトリックに関係なく、両方のモデルが同じ語彙を持っている場合、教師のSFTが蒸留モデルのパフォーマンスを改善することを示しています。
全体として、教師と生徒の両方のSFTは、すべてのメトリックでパフォーマンスが向上しますが、同じことの統計的有意性は教師モデルの語彙に依存します。
要約(オリジナル)
Knowledge Distillation (KD) is one of the approaches to reduce the size of Large Language Models (LLMs). A LLM with smaller number of model parameters (student) is trained to mimic the performance of a LLM of a larger size (teacher model) on a specific task. For domain-specific tasks, it is not clear if teacher or student model, or both, must be considered for domain adaptation. In this work, we study this problem from perspective of telecom domain Question-Answering (QA) task. We systematically experiment with Supervised Fine-tuning (SFT) of teacher only, SFT of student only and SFT of both prior to KD. We design experiments to study the impact of vocabulary (same and different) and KD algorithms (vanilla KD and Dual Space KD, DSKD) on the distilled model. Multi-faceted evaluation of the distillation using 14 different metrics (N-gram, embedding and LLM-based metrics) is considered. Experimental results show that SFT of teacher improves performance of distilled model when both models have same vocabulary, irrespective of algorithm and metrics. Overall, SFT of both teacher and student results in better performance across all metrics, although the statistical significance of the same depends on the vocabulary of the teacher models.
arxiv情報
著者 | Rishika Sen,Sujoy Roychowdhury,Sumit Soman,H. G. Ranjani,Srikhetra Mohanty |
発行日 | 2025-04-28 17:19:25+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google