EMLoC: Emulator-based Memory-efficient Fine-tuning with LoRA Correction

要約

オープンソースの基礎モデルでは、迅速な採用と開発が見られ、多様なドメイン全体で強力な汎用機能が可能になりました。
ただし、ドメイン固有またはパーソナライズされたタスクの大規模なファンデーションモデルを微調整すると、推論のオーバーヘッドを超えて重要なメモリのオーバーヘッドがあるため、ほとんどのユーザーにとっては非常に高価です。
LORA補正を備えたエミュレーターベースのメモリ効率の高い微調整フレームワークであるEmlocを紹介します。これにより、推論に必要な同じメモリ予算内でモデルの微調整が可能になります。
EMLOCは、小さな下流のキャリブレーションセットにアクティベーションを認識した単一値分解(SVD)を使用して、タスク固有の光重量エミュレーターを構築します。
微調整は、LORAを介してこの軽量エミュレータで実行されます。
元のモデルと圧縮エミュレータの間の不整合に取り組むために、微調整されたLORAモジュールを修正するための新しい補償アルゴリズムを提案します。
EMLOCは、柔軟な圧縮比と標準トレーニングパイプラインをサポートしており、幅広いアプリケーションに適応できます。
広範な実験は、EMLOCが複数のデータセットとモダリティにわたって他のベースラインよりも優れていることを示しています。
さらに、量子化なしでは、EMLOCは、単一の24GBの消費者GPU繁殖効率の効率的かつ実用的なモデル適応で38Bモデルの微調整を可能にします。

要約(オリジナル)

Open-source foundation models have seen rapid adoption and development, enabling powerful general-purpose capabilities across diverse domains. However, fine-tuning large foundation models for domain-specific or personalized tasks remains prohibitively expensive for most users due to the significant memory overhead beyond that of inference. We introduce EMLoC, an Emulator-based Memory-efficient fine-tuning framework with LoRA Correction, which enables model fine-tuning within the same memory budget required for inference. EMLoC constructs a task-specific light-weight emulator using activation-aware singular value decomposition (SVD) on a small downstream calibration set. Fine-tuning then is performed on this lightweight emulator via LoRA. To tackle the misalignment between the original model and the compressed emulator, we propose a novel compensation algorithm to correct the fine-tuned LoRA module, which thus can be merged into the original model for inference. EMLoC supports flexible compression ratios and standard training pipelines, making it adaptable to a wide range of applications. Extensive experiments demonstrate that EMLoC outperforms other baselines across multiple datasets and modalities. Moreover, without quantization, EMLoC enables fine-tuning of a 38B model on a single 24GB consumer GPU-bringing efficient and practical model adaptation to individual users.

arxiv情報

著者 Hsi-Che Lin,Yu-Chu Yu,Kai-Po Chang,Yu-Chiang Frank Wang
発行日 2025-06-13 17:59:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク