Resprompt: Residual Connection Prompting Advances Multi-Step Reasoning in Large Language Models

要約

段階的に問題解決の理論的根拠を提供する思考連鎖 (CoT) プロンプトは、大規模言語モデル (LLM) の推論の可能性を見事に解き放ちました。
ただし、標準の CoT は、複数の推論ステップを必要とする問題ではあまり効果的ではありません。
この制限は、複数ステップの問題における複雑な推論プロセスから生じます。多くの場合、後の段階は、直前のステップの結果だけでなく、いくつか前のステップの結果に依存します。
このような複雑さは、推論プロセスが自然にグラフとして表現されることを示唆しています。
ただし、CoT プロンプトのほぼ直線的で単純な構造は、この複雑な推論グラフを捉えるのに苦労します。
この課題に対処するために、LLM における複数ステップの推論を進歩させる新しいプロンプト戦略である Residual Connection Prompting (RESPROMPT) を提案します。
私たちの重要なアイデアは、プロンプト内で推論グラフを再構築することです。
これは、必要な接続 (推論グラフには存在するが線形 CoT フローには欠けているリンク) をプロンプトに統合することで実現します。
「残余接続」と呼ばれるこれらのリンクは、線形 CoT 構造をグラフ表現に変形する際に極めて重要であり、複数ステップの問題に固有の複雑な推論グラフを効果的にキャプチャします。
私たちは、数学、逐次的推論、常識的推論という 3 つの多様な領域にわたる 6 つのベンチマークで RESPROMPT を評価します。
オープンソースの LLaMA ファミリ モデルの場合、RESPROMPT は、LLaMA-65B で 12.5%、LLaMA2-70B で 6.8% という平均推論精度の大幅な向上をもたらします。
内訳分析では、RESPROMPT が複雑な複数ステップの推論で特に優れていることがさらに強調されています。少なくとも 5 つの推論ステップを必要とする質問では、RESPROMPT は、LLaMA-65B で 21.1%、LLaMA2-70B で 14.3% という顕著な平均改善により、最良の CoT ベースのベンチマークを上回っています。
広範なアブレーション研究と分析を通じて、私たちは残留接続を最も効果的に構築する方法を特定します。

要約(オリジナル)

Chain-of-thought (CoT) prompting, which offers step-by-step problem-solving rationales, has impressively unlocked the reasoning potential of large language models (LLMs). Yet, the standard CoT is less effective in problems demanding multiple reasoning steps. This limitation arises from the complex reasoning process in multi-step problems: later stages often depend on the results of several steps earlier, not just the results of the immediately preceding step. Such complexities suggest the reasoning process is naturally represented as a graph. The almost linear and straightforward structure of CoT prompting, however, struggles to capture this complex reasoning graph. To address this challenge, we propose Residual Connection Prompting (RESPROMPT), a new prompting strategy that advances multi-step reasoning in LLMs. Our key idea is to reconstruct the reasoning graph within prompts. We achieve this by integrating necessary connections-links present in the reasoning graph but missing in the linear CoT flow-into the prompts. Termed ‘residual connections’, these links are pivotal in morphing the linear CoT structure into a graph representation, effectively capturing the complex reasoning graphs inherent in multi-step problems. We evaluate RESPROMPT on six benchmarks across three diverse domains: math, sequential, and commonsense reasoning. For the open-sourced LLaMA family of models, RESPROMPT yields a significant average reasoning accuracy improvement of 12.5% on LLaMA-65B and 6.8% on LLaMA2-70B. Breakdown analysis further highlights RESPROMPT particularly excels in complex multi-step reasoning: for questions demanding at least five reasoning steps, RESPROMPT outperforms the best CoT based benchmarks by a remarkable average improvement of 21.1% on LLaMA-65B and 14.3% on LLaMA2-70B. Through extensive ablation studies and analyses, we pinpoint how to most effectively build residual connections.

arxiv情報

著者 Song Jiang,Zahra Shakeri,Aaron Chan,Maziar Sanjabi,Hamed Firooz,Yinglong Xia,Bugra Akyildiz,Yizhou Sun,Jinchao Li,Qifan Wang,Asli Celikyilmaz
発行日 2024-05-08 08:37:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク