Unleashing the Creative Mind: Language Model As Hierarchical Policy For Improved Exploration on Challenging Problem Solving

要約

大規模言語モデル (LLM) は目覚ましい進歩を遂げていますが、依然として困難な推論問題に苦戦していることがよくあります。
現在のアプローチは、詳細かつ低レベルの推論チェーンをサンプリングまたは検索することで、この課題に対処しています。
ただし、これらの方法の探索能力には依然として限界があるため、巨大なソリューション空間で正しいソリューションを目立たせることが困難になります。
この研究では、コンテキスト内学習を介して LLM を階層ポリシーとして組み立てることにより、複数の多様な問題解決戦略を探求する LLM の創造的な可能性を解き放ちます。
この方針は、多様で高度な問題解決戦術をヒントとして複数提案する先見の明のあるリーダーと、それぞれの高度な指示に従って詳細な問題解決プロセスを実行するフォロワーから構成されます。
フォロワーはリーダーの各指示をガイドとして使用し、問題に取り組むための複数の推論チェーンをサンプリングし、リーダーの提案ごとにソリューション グループを生成します。
さらに、最終的な答えに到達するために、これらの検討されたソリューション グループの中から選択するための、効果的かつ効率的なトーナメント ベースのアプローチを提案します。
私たちのアプローチは、有意義で刺激的なヒントを生成し、問題解決戦略の探索を強化し、MATH データセット内の困難な問題に対する最終的な解答の精度を向上させます。
コードは https://github.com/lz1oceani/LLM-As-Hierarchical-Policy でリリースされます。

要約(オリジナル)

Large Language Models (LLMs) have achieved tremendous progress, yet they still often struggle with challenging reasoning problems. Current approaches address this challenge by sampling or searching detailed and low-level reasoning chains. However, these methods are still limited in their exploration capabilities, making it challenging for correct solutions to stand out in the huge solution space. In this work, we unleash LLMs’ creative potential for exploring multiple diverse problem solving strategies by framing an LLM as a hierarchical policy via in-context learning. This policy comprises of a visionary leader that proposes multiple diverse high-level problem-solving tactics as hints, accompanied by a follower that executes detailed problem-solving processes following each of the high-level instruction. The follower uses each of the leader’s directives as a guide and samples multiple reasoning chains to tackle the problem, generating a solution group for each leader proposal. Additionally, we propose an effective and efficient tournament-based approach to select among these explored solution groups to reach the final answer. Our approach produces meaningful and inspiring hints, enhances problem-solving strategy exploration, and improves the final answer accuracy on challenging problems in the MATH dataset. Code will be released at https://github.com/lz1oceani/LLM-As-Hierarchical-Policy.

arxiv情報

著者 Zhan Ling,Yunhao Fang,Xuanlin Li,Tongzhou Mu,Mingu Lee,Reza Pourreza,Roland Memisevic,Hao Su
発行日 2023-11-01 17:52:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク