Understanding When Tree of Thoughts Succeeds: Larger Models Excel in Generation, Not Discrimination

要約

Tree of Thoughts (ToT) は、推論ステップを提案するジェネレーターと実装するステップを決定するディスクリミネーターを使用する大規模言語モデル (LLM) の推論戦略です。
ToT は推論タスクで強力なパフォーマンスを示し、多くの場合、入出力 (IO) プロンプトや思考連鎖 (CoT) 推論などの単純な手法を上回ります。
ただし、ToT はすべてのモデルにわたってそのような単純な方法よりも常に優れたパフォーマンスを発揮するわけではなく、ToT が最も有益となる条件に関して大きな知識のギャップが残ります。
この論文では、ToT が有益な場合の条件をより深く理解するために、ジェネレーターとディスクリミネーターの役割を個別に分析します。
ToT の成功を促進する上で、ジェネレーターはディスクリミネーターよりも重要な役割を果たしていることがわかりました。
より小さなモデルを弁別器として使用する場合でも、ジェネレータをスケーリングすると ToT パフォーマンスが顕著に向上しますが、固定ジェネレータを使用して弁別器をスケーリングしてもわずかな利益しか得られません。
私たちの結果は、異なるスケールのモデルが同等の識別能力を示しながらも、ToT の生成パフォーマンスが大きく異なることを示しています。

要約(オリジナル)

Tree of Thoughts (ToT) is a reasoning strategy for Large Language Models (LLMs) that employs a generator to suggest reasoning steps and a discriminator to decide which steps to implement. ToT demonstrates strong performance on reasoning tasks, often surpassing simple methods such as Input-Output (IO) prompting and Chain-of-Thought (CoT) reasoning. However, ToT does not consistently outperform such simpler methods across all models, leaving large knowledge gaps on the conditions under which ToT is most beneficial. In this paper, we analyze the roles of the generator and discriminator separately to better understand the conditions when ToT is beneficial. We find that the generator plays a more critical role than the discriminator in driving the success of ToT. While using even a smaller model as the discriminator, scaling the generator leads to notable improvements in ToT performance, whereas scaling the discriminator with a fixed generator yields only marginal gains. Our results show that models across different scales exhibit comparable discrimination capabilities, yet differ significantly in their generative performance for ToT.

arxiv情報

著者 Qiqi Chen,Xinpeng Wang,Philipp Mondorf,Michael A. Hedderich,Barbara Plank
発行日 2024-10-23 12:26:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク