要約
大規模な言語モデル(LLMS)をゼロからトレーニングするには、重要な計算リソースが必要であり、効率と強力なタスクパフォーマンスの両方を維持する、より小さなドメイン固有のLLMを開発することに関心を促進します。
Llama、Llama}などの中規模モデルは、ドメイン固有の適応の出発点として機能していますが、特殊なデータセットでテストすると、精度の低下に苦しむことがよくあります。
Finescopeを紹介します。Finescopeは、大規模な前提型モデルからコンパクトでドメイン最適化されたLLMを導き出すためのフレームワークです。
Finescopeは、通信可能な特徴表現を生成する機能に触発され、大きなデータセットからドメイン固有のサブセットを抽出する能力に触発された、スパースオートエンコーダー(SAE)フレームワークを活用します。
ドメイン固有の制約を備えた構造化された剪定を適用し、結果として生じるプルーニックモデルがターゲットドメインの本質的な知識を保持するようにします。
パフォーマンスをさらに向上させるために、これらの剪定されたモデルは自己データ蒸留を受け、SAEキュレーションのデータセットを活用して、剪定中に失われた主要なドメイン固有の情報を復元します。
広範な実験とアブレーション研究は、Finescopeが非常に競争力のあるパフォーマンスを達成し、ドメイン固有のタスクでいくつかの大規模な最先端のLLMを上回ることを示しています。
さらに、我々の結果は、Finescopeにより、SAEによるデータセットで微調整されたときに、剪定されたモデルが元のパフォーマンスのかなりの部分を取り戻すことができることを示しています。
さらに、これらのデータセットを剪定せずに前処理されたLLMSを微調整するために適用すると、ドメイン固有の精度も向上し、アプローチの堅牢性を強調します。
コードがリリースされます。
要約(オリジナル)
Training large language models (LLMs) from scratch requires significant computational resources, driving interest in developing smaller, domain-specific LLMs that maintain both efficiency and strong task performance. Medium-sized models such as LLaMA, llama} have served as starting points for domain-specific adaptation, but they often suffer from accuracy degradation when tested on specialized datasets. We introduce FineScope, a framework for deriving compact, domain-optimized LLMs from larger pretrained models. FineScope leverages the Sparse Autoencoder (SAE) framework, inspired by its ability to produce interpretable feature representations, to extract domain-specific subsets from large datasets. We apply structured pruning with domain-specific constraints, ensuring that the resulting pruned models retain essential knowledge for the target domain. To further enhance performance, these pruned models undergo self-data distillation, leveraging SAE-curated datasets to restore key domain-specific information lost during pruning. Extensive experiments and ablation studies demonstrate that FineScope achieves highly competitive performance, outperforming several large-scale state-of-the-art LLMs in domain-specific tasks. Additionally, our results show that FineScope enables pruned models to regain a substantial portion of their original performance when fine-tuned with SAE-curated datasets. Furthermore, applying these datasets to fine-tune pretrained LLMs without pruning also improves their domain-specific accuracy, highlighting the robustness of our approach. The code will be released.
arxiv情報
著者 | Chaitali Bhattacharyya,Yeseong Kim |
発行日 | 2025-05-01 16:05:08+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google