要約
思考連鎖プロンプトなどの複数ステップの推論命令は、より優れた言語モデル (LM) のパフォーマンスを探るために広く採用されています。
我々は、このような多段階の推論プロセスにおいて LM が採用する体系的な戦略について報告します。
私たちの管理された実験により、LM は、目標に到達するまでにさらに多くの推論ステップが残っている推論の初期段階で、語彙の重複などのヒューリスティックに大きく依存していることが明らかになりました。
逆に、LM が複数の推論ステップを経て最終的な答えに近づくにつれて、ヒューリスティックへの依存度は低下します。
これは、LM が将来の限られた数のステップのみをバックトラックし、複数ステップの推論を含むタスクでヒューリスティック戦略と理論的戦略を動的に組み合わせることができることを示唆しています。
要約(オリジナル)
Multi-step reasoning instruction, such as chain-of-thought prompting, is widely adopted to explore better language models (LMs) performance. We report on the systematic strategy that LMs employ in such a multi-step reasoning process. Our controlled experiments reveal that LMs rely more heavily on heuristics, such as lexical overlap, in the earlier stages of reasoning, where more reasoning steps remain to reach a goal. Conversely, their reliance on heuristics decreases as LMs progress closer to the final answer through multiple reasoning steps. This suggests that LMs can backtrack only a limited number of future steps and dynamically combine heuristic strategies with rationale ones in tasks involving multi-step reasoning.
arxiv情報
著者 | Yoichi Aoki,Keito Kudo,Tatsuki Kuribayashi,Shusaku Sone,Masaya Taniguchi,Keisuke Sakaguchi,Kentaro Inui |
発行日 | 2024-10-07 15:01:26+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google