要約
クラウドベースの独自の大規模言語モデル(LLMS)の広範な採用により、運用依存、プライバシーの懸念、継続的なインターネット接続の必要性など、重要な課題が導入されました。
この作業では、サービス指向のLLMSからより小さなローカルに管理可能なモデルへの知識と能力のシームレスな移行のために、LLMOPSパイプライン「Llamaduo」を紹介します。
このパイプラインは、運用障害、厳格なプライバシーポリシー、またはオフライン要件の存在下でサービスの継続性を確保するために重要です。
私たちのLlamaduoは、後者によって生成された合成データセットを使用して、サービスLLMに対して小さな言語モデルを微調整することを伴います。
微調整されたモデルのパフォーマンスが期待に達していない場合、Service LLMによって生成された追加の類似データを使用して、追加の微調整により自動的に改善されます。
このマルチターンプロセスは、小さなモデルが最終的に特定のダウンストリームタスクでサービスLLMの機能と一致したり、それを上回ったりすることを保証し、制約された環境でAI展開を管理するための実用的でスケーラブルなソリューションを提供します。
最先端のLLMを使用した広範な実験が実施され、さまざまな下流タスクにわたるLlamaduoの有効性、適応性、および手頃な価格を実証します。
パイプラインの実装は、https://github.com/deep-diver/llamaduoで入手できます。
要約(オリジナル)
The widespread adoption of cloud-based proprietary large language models (LLMs) has introduced significant challenges, including operational dependencies, privacy concerns, and the necessity of continuous internet connectivity. In this work, we introduce an LLMOps pipeline, ‘LlamaDuo’, for the seamless migration of knowledge and abilities from service-oriented LLMs to smaller, locally manageable models. This pipeline is crucial for ensuring service continuity in the presence of operational failures, strict privacy policies, or offline requirements. Our LlamaDuo involves fine-tuning a small language model against the service LLM using a synthetic dataset generated by the latter. If the performance of the fine-tuned model falls short of expectations, it is automatically improved through additional fine-tuning using extra similar data generated by the service LLM. This multi-turn process guarantees that the smaller model can eventually match or even surpass the service LLM’s capabilities in specific downstream tasks, offering a practical and scalable solution for managing AI deployments in constrained environments. Extensive experiments with leading-edge LLMs are conducted to demonstrate the effectiveness, adaptability, and affordability of LlamaDuo across various downstream tasks. Our pipeline implementation is available at https://github.com/deep-diver/llamaduo.
arxiv情報
著者 | Chansung Park,Juyong Jiang,Fan Wang,Sayak Paul,Jing Tang |
発行日 | 2025-05-30 17:53:07+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google