要約
LLMは高度な推論能力を示し、自然言語による質問を数学的モデルに変換する可能性を提供する。しかしながら、オペレーションズリサーチ領域における既存のオープンソースデータセットには、変数の定義などモデリングプロセスの詳細なアノテーションがなく、目的値のみに焦点が当てられているため、強化学習アプリケーションの妨げとなっている。この問題に対処するため、我々は、数学的モデリングの完全なプロセスを捉える包括的なラベルでアノテーションされたStructuredORデータセットを公開する。さらに、ビーム探索、プロセス報酬モデル、ペアワイズ選好アルゴリズムを用いて、強化学習を思考の木構造に統合するアルゴリズムであるBPP-Searchを提案する。このアプローチにより、ツリー構造の効率的な探索が可能となり、精度を向上させながら、網羅的な探索を回避することができる。StructuredOR、NL4OPT、MAMO-ComplexLPデータセットでの広範な実験により、BPP-Searchは最先端の手法を大幅に上回ることが示された。ツリーベースの推論において、BPP-Searchは精度と効率に優れ、より高速に正しい解を取り出すことができる。
要約(オリジナル)
LLMs exhibit advanced reasoning capabilities, offering the potential to transform natural language questions into mathematical models. However, existing open-source datasets in operations research domain lack detailed annotations of the modeling process, such as variable definitions, focusing solely on objective values, which hinders reinforcement learning applications. To address this, we release the StructuredOR dataset, annotated with comprehensive labels that capture the complete mathematical modeling process. We further propose BPP-Search, a algorithm that integrates reinforcement learning into a tree-of-thought structure using Beam search, a Process reward model, and a pairwise Preference algorithm. This approach enables efficient exploration of tree structures, avoiding exhaustive search while improving accuracy. Extensive experiments on StructuredOR, NL4OPT, and MAMO-ComplexLP datasets show that BPP-Search significantly outperforms state-of-the-art methods. In tree-based reasoning, BPP-Search excels in accuracy and efficiency, enabling faster retrieval of correct solutions.
arxiv情報
著者 | Teng Wang,Wing-Yin Yu,Zhenqi He,Zehua Liu,Xiongwei Han,Hailei Gong,Han Wu,Wei Shi,Ruifeng She,Fangzhou Zhu,Tao Zhong |
発行日 | 2024-12-03 17:38:54+00:00 |
arxivサイト | arxiv_id(pdf) |