From Large to Super-Tiny: End-to-End Optimization for Cost-Efficient LLMs

要約

近年、大規模な言語モデル(LLMS)は、従来の自然言語処理(NLP)パイプラインを最適化し、パフォーマンスと一般化を改善することにより、人工知能を大幅に進めています。
これにより、さまざまなシステムへの統合が促進されました。
当社を含む多くのNLPシステムは、LLMを直接組み込む「1段階」パイプラインを採用しています。
効果的ですが、このアプローチは、満足のいく結果を達成するために大きなモデルパラメーターが必要であるため、かなりのコストと待ち時間を負います。
このペーパーでは、LLMベースのフレームワークにおけるコストパフォーマンスのジレンマをタックルするために、3段階のコスト効率の高いエンドツーエンドLLM展開パイプラインを含むパイプラインを含むパイプラインを含むパイプラインを含むコンピューションを紹介します。
私たちのアプローチは、オンラインシステムのコストとパフォーマンスのために最適化された超小型モデルを生み出し、システムアーキテクチャを簡素化します。
当初、複雑なタスクを関数コールベースのLLM駆動型パイプラインに変換することにより、教師モデルとして高品質のデータを生成するための最適なパフォーマンスプロトタイプシステムが構築されています。
第2段階では、拒否の微調整、強化学習、知識の蒸留などの手法を組み合わせて、知識をより小さな0.5Bの学生モデルに移し、最小限のコストで効果的なパフォーマンスを提供します。
最終段階では、量子化と剪定を0.4Bに極端に圧縮するために適用され、超低レイテンシとコストを達成します。
フレームワークのモジュラー設計とクロスドメイン機能は、他のNLP領域での潜在的な適用性を示唆しています。

要約(オリジナル)

In recent years, Large Language Models (LLMs) have significantly advanced artificial intelligence by optimizing traditional Natural Language Processing (NLP) pipelines, improving performance and generalization. This has spurred their integration into various systems. Many NLP systems, including ours, employ a ‘one-stage’ pipeline directly incorporating LLMs. While effective, this approach incurs substantial costs and latency due to the need for large model parameters to achieve satisfactory outcomes. This paper introduces a three-stage cost-efficient end-to-end LLM deployment pipeline-including prototyping, knowledge transfer, and model compression-to tackle the cost-performance dilemma in LLM-based frameworks. Our approach yields a super tiny model optimized for cost and performance in online systems, simplifying the system architecture. Initially, by transforming complex tasks into a function call-based LLM-driven pipeline, an optimal performance prototype system is constructed to produce high-quality data as a teacher model. The second stage combines techniques like rejection fine-tuning, reinforcement learning, and knowledge distillation to transfer knowledge to a smaller 0.5B student model, delivering effective performance at minimal cost. The final stage applies quantization and pruning to extremely compress models to 0.4B, achieving ultra-low latency and cost. The framework’s modular design and cross-domain capabilities suggest potential applicability in other NLP areas.

arxiv情報

著者 Jiliang Ni,Jiachen Pu,Zhongyi Yang,Kun Zhou,Hui Wang,Xiaoliang Xiao,Dakui Wang,Xin Li,Jingfeng Luo,Conggang Hu
発行日 2025-04-24 07:30:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク