TRIM: Token Reduction and Inference Modeling for Cost-Effective Language Generation

要約

大規模言語モデル (LLM) の推論コストは、特に長い出力を必要とするタスクでの計算需要により、大きな課題となります。
ただし、自然言語には冗長性が含まれることが多く、最適化の機会となります。
私たちは、適切なプロンプトが表示された場合、LLM が本質的な意味を保持した、抽出された言語の簡潔な出力を生成できることを観察しました。
我々は、計算コストを節約するためのフレームワークを提案します。このフレームワークでは、LLM から抽出された短い出力が、より低い推論コストを持つより小さなモデルによって完全な物語に再構築されます。
私たちの実験では、特に一般知識領域で有望な結果が得られ、平均で 20.58% のトークンが節約され、評価指標はわずかに減少しました。これは、このアプローチが言語処理タスクの効率と精度のバランスを効果的に取れることを示唆しています。

要約(オリジナル)

The inference cost of Large Language Models (LLMs) is a significant challenge due to their computational demands, specially on tasks requiring long outputs. However, natural language often contains redundancy, which presents an opportunity for optimization. We have observed that LLMs can generate distilled language-concise outputs that retain essential meaning, when prompted appropriately. We propose a framework for saving computational cost, in which a shorter distilled output from the LLM is reconstructed into a full narrative by a smaller model with lower inference costs. Our experiments show promising results, particularly in general knowledge domains with 20.58% saved tokens on average with tiny decrease in evaluation metrics, hinting that this approach can effectively balance efficiency and accuracy in language processing tasks.

arxiv情報

著者 Alfredo Garrachón Ruiz,Tomás de la Rosa,Daniel Borrajo
発行日 2024-12-10 17:13:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク