要約
思考連鎖プロンプトの最近の進歩により、複雑な推論タスクにおける大規模言語モデル (LLM) の大幅な進歩が促進されました。
現在の研究では、複数の推論チェーンをサンプリングし、回答頻度に基づいてアンサンブルすることにより、LLM の推論パフォーマンスが向上しています。
ただし、正解が少数派であるシナリオでは、このアプローチは失敗します。
私たちはこれが LLM の推論能力を制約する主な要因であり、予測された答えのみに基づいて解決できない制限であると特定しています。
この欠点に対処するために、推論チェーンの評価に基づいて回答を選択する、階層型推論集約フレームワーク AoR (Aggregation of Reasoning) を導入します。
さらに、AoR には動的サンプリングが組み込まれており、タスクの複雑さに応じて推論チェーンの数を調整します。
一連の複雑な推論タスクに関する実験結果は、AoR が著名なアンサンブル手法よりも優れていることを示しています。
さらなる分析により、AoR はさまざまな LLM を適応させるだけでなく、現在の方法と比較して優れたパフォーマンス上限を達成していることが明らかになりました。
要約(オリジナル)
Recent advancements in Chain-of-Thought prompting have facilitated significant breakthroughs for Large Language Models (LLMs) in complex reasoning tasks. Current research enhances the reasoning performance of LLMs by sampling multiple reasoning chains and ensembling based on the answer frequency. However, this approach fails in scenarios where the correct answers are in the minority. We identify this as a primary factor constraining the reasoning capabilities of LLMs, a limitation that cannot be resolved solely based on the predicted answers. To address this shortcoming, we introduce a hierarchical reasoning aggregation framework AoR (Aggregation of Reasoning), which selects answers based on the evaluation of reasoning chains. Additionally, AoR incorporates dynamic sampling, adjusting the number of reasoning chains in accordance with the complexity of the task. Experimental results on a series of complex reasoning tasks show that AoR outperforms prominent ensemble methods. Further analysis reveals that AoR not only adapts various LLMs but also achieves a superior performance ceiling when compared to current methods.
arxiv情報
著者 | Zhangyue Yin,Qiushi Sun,Qipeng Guo,Zhiyuan Zeng,Xiaonan Li,Tianxiang Sun,Cheng Chang,Qinyuan Cheng,Ding Wang,Xiaofeng Mou,Xipeng Qiu,XuanJing Huang |
発行日 | 2024-05-21 17:12:19+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google