Skeleton-of-Thought: Large Language Models Can Do Parallel Decoding

要約

この取り組みは、大規模言語モデル (LLM) のエンドツーエンドの生成待ち時間を短縮することを目的としています。
生成レイテンシが高くなる主な原因の 1 つは、ほとんどすべての最先端の LLM で採用されている逐次デコード アプローチです。
この研究では、人間の思考と記述のプロセスを動機として、LLM が最初に答えのスケルトンを生成し、次に並列 API 呼び出しまたはバッチ デコードを実行して完了するようにガイドする「Skeleton-of-Thought」(SoT) を提案します。
各スケルトンの内容は平行しています。
SoT は大幅な高速化 (11 の異なる LLM で最大 2.39 倍) を提供するだけでなく、多様性と関連性の観点から、いくつかの質問カテゴリの回答品質を向上させる可能性もあります。
SoT は、効率性を高めるためのデータ中心の最適化への最初の試みであり、LLM が回答の品質に関してより人間のように考えるよう促す可能性を明らかにしています。

要約(オリジナル)

This work aims at decreasing the end-to-end generation latency of large language models (LLMs). One of the major causes of the high generation latency is the sequential decoding approach adopted by almost all state-of-the-art LLMs. In this work, motivated by the thinking and writing process of humans, we propose ‘Skeleton-of-Thought’ (SoT), which guides LLMs to first generate the skeleton of the answer, and then conducts parallel API calls or batched decoding to complete the contents of each skeleton point in parallel. Not only does SoT provide considerable speed-up (up to 2.39x across 11 different LLMs), but it can also potentially improve the answer quality on several question categories in terms of diversity and relevance. SoT is an initial attempt at data-centric optimization for efficiency, and reveal the potential of pushing LLMs to think more like a human for answer quality.

arxiv情報

著者 Xuefei Ning,Zinan Lin,Zixuan Zhou,Huazhong Yang,Yu Wang
発行日 2023-07-28 06:31:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク