Reasoning in Token Economies: Budget-Aware Evaluation of LLM Reasoning Strategies

要約

大規模な言語モデルの機能を引き出すために、さまざまな推論戦略が提案されています。
ただし、このホワイトペーパーでは、パフォーマンス指標のみに焦点を当てた従来の評価では、重要な要素、つまり追加のコンピューティングによる効率の向上が見落とされていることを指摘します。
この側面を見落とすと、戦略の効率性について偏った見方がされることがよくあります。
このペーパーでは、評価にコンピューティング バジェットを組み込むフレームワークを紹介し、パフォーマンス メトリクスとコンピューティング コストの両方を考慮したより有益な比較を提供します。
この予算を意識した観点から、複雑な推論戦略が単純なベースラインを超えることが多いのは、純粋にアルゴリズムの創意工夫によるものではなく、割り当てられた計算リソースがより大きいためであることがわかります。
同等のコンピューティング リソースを使用して、思考連鎖の自己一貫性のような単純なベースラインを提供すると、文献で提案されている推論戦略よりも優れたパフォーマンスを発揮することがよくあります。
このスケールを意識した観点では、自己一貫性とは異なり、マルチエージェントのディベートやリフレクションなどの特定の戦略は、より多くのコンピューティング予算が使用されると悪化する可能性があることがわかります。

要約(オリジナル)

A diverse array of reasoning strategies has been proposed to elicit the capabilities of large language models. However, in this paper, we point out that traditional evaluations which focus solely on performance metrics miss a key factor: the increased effectiveness due to additional compute. By overlooking this aspect, a skewed view of strategy efficiency is often presented. This paper introduces a framework that incorporates the compute budget into the evaluation, providing a more informative comparison that takes into account both performance metrics and computational cost. In this budget-aware perspective, we find that complex reasoning strategies often don’t surpass simpler baselines purely due to algorithmic ingenuity, but rather due to the larger computational resources allocated. When we provide a simple baseline like chain-of-thought self-consistency with comparable compute resources, it frequently outperforms reasoning strategies proposed in the literature. In this scale-aware perspective, we find that unlike self-consistency, certain strategies such as multi-agent debate or Reflexion can become worse if more compute budget is utilized.

arxiv情報

著者 Junlin Wang,Siddhartha Jain,Dejiao Zhang,Baishakhi Ray,Varun Kumar,Ben Athiwaratkun
発行日 2024-06-10 16:55:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク