Concise Thoughts: Impact of Output Length on LLM Reasoning and Cost

要約

今日の大規模言語モデル (LLM) は、困難な質問応答タスクを解決でき、思考連鎖 (CoT) などの迅速なエンジニアリング手法は、出力の説明と正確性を高めるために注目を集めています。
それにもかかわらず、モデルでは、長い推論の詳細を追加した回答を生成するには、かなりの時間がかかります。
この問題に対処するために、この論文では LLM 推論パイプラインに対する出力長の影響を分析し、\textit{正確な簡潔さ}の観点からそれらを評価するための新しい指標を提案します。
また、モデルによる出力長の制限を促す、洗練されたプロンプト エンジニアリング戦略である Constrained-CoT (CCoT) を通じて、出力長を制御することの影響も検証します。
事前トレーニングされた LLM での実験により、提案されたメトリクスの利点と、さまざまなモデルにわたる CCoT の有効性が実証されました。
たとえば、LLaMA2-70b の推論を 100 ワードに制限すると、GSM8K データセットの精度が 36.01\% (CoT) から 41.07\% (CCoT) に向上しますが、平均出力長は 28 ワード短縮されます。

要約(オリジナル)

Today’s large language models (LLMs) can solve challenging question-answering tasks, and prompt engineering techniques, such as chain-of-thought (CoT), have gained attention for enhancing the explanation and correctness of outputs. Nevertheless, models require significant time to generate answers augmented with lengthy reasoning details. To address this issue, this paper analyzes the impact of output lengths on LLM inference pipelines and proposes novel metrics to evaluate them in terms of \textit{correct conciseness}. It also examines the impact of controlling output length through a refined prompt engineering strategy, Constrained-CoT (CCoT), which encourages the model to limit output length. Experiments on pre-trained LLMs demonstrated the benefit of the proposed metrics and the effectiveness of CCoT across different models. For instance, constraining the reasoning of LLaMA2-70b to 100 words improves the accuracy from 36.01\% (CoT) to 41.07\% (CCoT) on the GSM8K dataset, while reducing the average output length by 28 words.

arxiv情報

著者 Sania Nayab,Giulio Rossolini,Giorgio Buttazzo,Nicolamaria Manes,Fabrizio Giacomelli
発行日 2024-07-29 09:21:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク