要約
大規模言語モデル (LLM) が AI 環境をますます形作っているため、ドメイン固有のタスクで最適なパフォーマンスを達成するために、事前トレーニング済みモデルを微調整することが LLM 以前の時代よりも一般的になってきています。
ただし、ChatGPT などの事前トレーニング済み LLM は定期的に進化する (つまり、モデル パラメーターが頻繁に更新される) ため、限られたリソースを持つダウンストリーム ユーザーにとって、ドメイン アプリケーションに合わせて最新の LLM を微調整し続けることが困難になります。
LoRA などのパラメーター効率の高い微調整の革新のおかげで、現在では微調整コストが削減されていますが、すべてのダウンストリーム ユーザーが頻繁なパーソナライゼーションに十分なコンピューティングを備えているわけではありません。
さらに、微調整データセットへのアクセスは、特に医療などの機密分野では時間制限がかかる可能性があり、将来の適応のために以前の微調整ラウンドでエンコードされた知識を保持することが重要になります。
このペーパーでは、(i) ドメイン固有の知識を取得するために最初の軽量モデル更新パッチを作成し、(ii) 最小限のコストで進化した LLM を継続的にパーソナライズするためのその後のシームレスなプラグインを可能にする、トレーニング不要のフレームワークである PortLLM を紹介します。
。
私たちの広範な実験は、より簡単な質問応答タスク {BoolQ、SST2} からより難しい推論タスク {WinoGrande、GSM8K} までの 7 つの代表的なデータセットと、{Mistral-7B、Llama2、Llama3.1、Gemma2} を含むモデルをカバーし、移植性を検証しています。
私たちが設計したモデルパッチを紹介し、私たちが提案したフレームワークの有効性を紹介します。
たとえば、PortLLM は、GPU メモリ使用量を最大 12.2 倍削減しながら、LoRA 微調整と同等のパフォーマンスを実現します。
最後に、モデル更新パッチの移植性を理解するための理論的根拠を提供します。これにより、LLM のパーソナライゼーションの理論的側面に対する新たな洞察が得られます。
要約(オリジナル)
As large language models (LLMs) increasingly shape the AI landscape, fine-tuning pretrained models has become more popular than in the pre-LLM era for achieving optimal performance in domain-specific tasks. However, pretrained LLMs such as ChatGPT are periodically evolved, i.e., model parameters are frequently updated), making it challenging for downstream users with limited resources to keep up with fine-tuning the newest LLMs for their domain application. Even though fine-tuning costs have nowadays been reduced thanks to the innovations of parameter-efficient fine-tuning such as LoRA, not all downstream users have adequate computing for frequent personalization. Moreover, access to fine-tuning datasets, particularly in sensitive domains such as healthcare, could be time-restrictive, making it crucial to retain the knowledge encoded in earlier fine-tuned rounds for future adaptation. In this paper, we present PortLLM, a training-free framework that (i) creates an initial lightweight model update patch to capture domain-specific knowledge, and (ii) allows a subsequent seamless plugging for the continual personalization of evolved LLM at minimal cost. Our extensive experiments cover seven representative datasets, from easier question-answering tasks {BoolQ, SST2} to harder reasoning tasks {WinoGrande, GSM8K}, and models including {Mistral-7B, Llama2, Llama3.1, and Gemma2}, validating the portability of our designed model patches and showcasing the effectiveness of our proposed framework. For instance, PortLLM achieves comparable performance to LoRA fine-tuning with reductions of up to 12.2x in GPU memory usage. Finally, we provide theoretical justifications to understand the portability of our model update patches, which offers new insights into the theoretical dimension of LLMs’ personalization.
arxiv情報
著者 | Rana Muhammad Shahroz Khan,Pingzhi Li,Sukwon Yun,Zhenyu Wang,Shahriar Nirjon,Chau-Wai Wong,Tianlong Chen |
発行日 | 2024-10-24 17:58:52+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google