要約
大規模言語モデル (LLM) は優れた結果をもたらしますが、モデル サイズと計算コストの増加による課題に直面しています。
構造化された枝刈りはモデルのサイズを削減し、推論を高速化しますが、多くの場合、ドメイン間で不均一な劣化を引き起こし、パフォーマンスの偏りにつながります。
これに対処するために、分散的に堅牢な最適化を組み込んでドメイン全体でバランスの取れたパフォーマンスを復元するとともに、堅牢性を強化するためのさらなる改善を行う DRPruning を提案します。
単言語および多言語設定での実験では、プルーニングと、複雑さ、下流タスク、および命令チューニングに対する事前トレーニングの継続において、私たちの方法が同様のサイズのモデルを上回っていることが示されています。
さらに、さまざまなドメインや分布の変化に対するメソッドの堅牢性を実証する分析も提供します。
さらに、私たちの方法は最適な基準損失とデータ比率を自動的に決定し、より広範なアプリケーションの可能性を示唆しています。
私たちのコードは https://github.com/hexuandeng/DRPruning で入手できます。
要約(オリジナル)
Large language models (LLMs) deliver impressive results but face challenges from increasing model sizes and computational costs. Structured pruning reduces model size and speeds up inference but often causes uneven degradation across domains, leading to biased performance. To address this, we propose DRPruning, which incorporates distributionally robust optimization to restore balanced performance across domains, along with further improvements to enhance robustness. Experiments in monolingual and multilingual settings show that our method surpasses similarly sized models in pruning and continued pretraining over perplexity, downstream tasks, and instruction tuning. We further provide analysis demonstrating the robustness of our method towards various domains and distribution shifts. Furthermore, our method automatically determines optimal reference losses and data ratios, suggesting potential for broader applications. Our code is available at https://github.com/hexuandeng/DRPruning.
arxiv情報
著者 | Hexuan Deng,Wenxiang Jiao,Xuebo Liu,Min Zhang,Zhaopeng Tu |
発行日 | 2024-11-21 12:02:39+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google