BPP-Search: Enhancing Tree of Thought Reasoning for Mathematical Modeling Problem Solving

要約

LLM は高度な推論能力を示し、自然言語の質問を数学モデルに変換する可能性を提供します。
ただし、既存のオープンソースのオペレーション リサーチ データセットには、変数定義などのモデリング プロセスの詳細な注釈が欠如しており、客観的な値のみに焦点を当てているため、強化学習のアプリケーションが妨げられています。
これに対処するために、完全な数学的モデリング プロセスをキャプチャする包括的なラベルが注釈付けされた StructuredOR データセットをリリースします。
さらに、ビーム検索、プロセス報酬モデル、およびペアワイズ優先アルゴリズムを使用して、強化学習を思考ツリー構造に統合するアルゴリズムである BPP-Search を提案します。
このアプローチにより、ツリー構造の効率的な探索が可能になり、精度を向上させながら徹底的な検索を回避できます。
StructuredOR、NL4OPT、MAMO-ComplexLP データセットに関する広範な実験により、BPP-Search が思考連鎖、自己一貫性、思考ツリーなどの最先端の手法を大幅に上回るパフォーマンスを示すことが示されています。
ツリーベースの推論では、BPP-Search は Greedy または Beam Search と組み合わせたプロセス報酬モデルをも上回っており、優れた精度と効率を実証し、正しいソリューションをより迅速に取得できるようにします。

要約(オリジナル)

LLMs exhibit advanced reasoning capabilities, offering the potential to transform natural language questions into mathematical models. However, existing open-source operations research datasets lack detailed annotations of the modeling process, such as variable definitions, focusing solely on objective values, which hinders reinforcement learning applications. To address this, we release the StructuredOR dataset, annotated with comprehensive labels that capture the complete mathematical modeling process. We further propose BPP-Search, a algorithm that integrates reinforcement learning into a tree-of-thought structure using Beam search, a Process reward model, and a pairwise Preference algorithm. This approach enables efficient exploration of tree structures, avoiding exhaustive search while improving accuracy. Extensive experiments on StructuredOR, NL4OPT, and MAMO-ComplexLP datasets show that BPP-Search significantly outperforms state-of-the-art methods, including Chain-of-Thought, Self-Consistency, and Tree-of-Thought. In tree-based reasoning, BPP-Search also surpasses Process Reward Model combined with Greedy or Beam Search, demonstrating superior accuracy and efficiency, and enabling faster retrieval of correct solutions.

arxiv情報

著者 Teng Wang,Wing-Yin Yu,Zhenqi He,Zehua Liu,Xiongwei Han,Hailei Gong,Han Wu,Wei Shi,Ruifeng She,Fangzhou Zhu,Tao Zhong
発行日 2024-11-26 13:05:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク