要約
大規模言語モデル (LLM) は、膨大な数のモデル パラメーター (例: 70B+) のおかげで、自然言語タスクに大幅に採用されています。
ただし、LLM 推論には多大な計算コストとメモリ コストがかかります。
最近のアプローチでは、プロンプトを並列デコード可能なサブ問題に分割することでパフォーマンスを向上させる、Skeleton-of-Thought (SoT) などの並列デコード戦略が提案されています。
ただし、多くの場合、応答品質の低下に悩まされます。
私たちの重要な洞察は、応答の品質とパフォーマンスの両方を向上させるために副問題を生成するときに、追加情報、特に依存関係と難易度を要求できることです。
この論文では、サブ問題間で公開される依存関係を使用して、依存するサブ問題間の情報転送をサポートして品質を向上させると同時に、独立したサブ問題をデコードするための並列化の機会を公開するスケルトン グラフ デコーディング (SGD) を提案します。
さらに、各サブ問題の難易度の推定を利用して適切なサイズのモデルを選択し、品質を大幅に低下させることなくパフォーマンスを向上させます。
標準の自己回帰生成や SoT と比較して、SGD は 1.69 倍の高速化を達成しながら、品質を最大 51% 向上させます。
要約(オリジナル)
Large language models (LLMs) have seen significant adoption for natural language tasks, owing their success to massive numbers of model parameters (e.g., 70B+); however, LLM inference incurs significant computation and memory costs. Recent approaches propose parallel decoding strategies, such as Skeleton-of-Thought (SoT), to improve performance by breaking prompts down into sub-problems that can be decoded in parallel; however, they often suffer from reduced response quality. Our key insight is that we can request additional information, specifically dependencies and difficulty, when generating the sub-problems to improve both response quality and performance. In this paper, we propose Skeleton Graph Decoding (SGD), which uses dependencies exposed between sub-problems to support information forwarding between dependent sub-problems for improved quality while exposing parallelization opportunities for decoding independent sub-problems. Additionally, we leverage difficulty estimates for each sub-problem to select an appropriately-sized model, improving performance without significantly reducing quality. Compared to standard autoregressive generation and SoT, SGD achieves a 1.69x speedup while improving quality by up to 51%.
arxiv情報
著者 | Shuowei Jin,Yongji Wu,Haizhong Zheng,Qingzhao Zhang,Matthew Lentz,Z. Morley Mao,Atul Prakash,Feng Qian,Danyang Zhuo |
発行日 | 2024-02-19 16:47:04+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google