Flow of Reasoning:Training LLMs for Divergent Problem Solving with Minimal Examples

要約

与えられた問題に対して多様な解決策を生み出す能力は、人間の創造性の特徴である。この多様な推論は機械にとっても重要であり、機械の頑健性を高め、科学的発見などの多くの応用において人間を支援することを可能にする。しかし、大規模言語モデル(LLM)を用いた多段階推論への既存のアプローチは、推論の正確さのみに焦点が当てられており、より多様な有効解を発見することは行われていない。例えば、教師ありの微調整はLLMの推論品質を向上させることができるが、可能な解の全範囲を捕捉するために広範な教師ありデータを必要とする。強化学習は、解の多様性を無視しながら、限られた最も報酬の高い解を見つけることを目的としている。このギャップを埋めるために、我々は、最小限のデータで推論品質と多様性を改善することを目的とした、効率的な多様性探索LLMファインチューニング手法であるFlow of Reasoning (FoR)を提案する。FoRは多段階LLM推論をDAG構造の推論グラフ上のマルコフフローとして定式化する。この定式化により、原理的なGFlowNetのアプローチを取り入れ、適応させることができる。広範な実験により、限られた訓練例(例えば15例)で、FoRは多様で創造的かつ高品質な解の発見を可能にし、BlocksWorld(身体化推論)、Game24(数学パズル解法)、ルービックキューブ(空間推論)、1D-ARC(抽象化推論)、PrOntoQA(論理推論)を含む5つの挑戦的なパズル解法タスクにおいて、既存の推論・訓練手法を大きく上回ることが示された。コードはhttps://github.com/Yu-Fangxu/FoR。

要約(オリジナル)

The ability to generate diverse solutions to a given problem is a hallmark of human creativity. This divergent reasoning is also crucial for machines, enhancing their robustness and enabling them to assist humans in many applications such as scientific discovery. However, existing approaches to multi-step reasoning with large language models (LLMs) have mostly focused only on reasoning accuracy, without further discovering more diverse valid solutions. For example, supervised fine-tuning can improve LLM reasoning quality, but requires extensive supervised data to capture the full range of possible solutions. Reinforcement learning aims to find limited highest-reward solutions while neglecting the solution diversity. To fill this gap, we propose Flow of Reasoning (FoR), an efficient diversity-seeking LLM finetuning method aimed at improving reasoning quality and diversity with minimal data. FoR formulates multi-step LLM reasoning as a Markovian flow on a DAG-structured reasoning graph. This formulation allows us to incorporate and adapt principled GFlowNet approaches, for finetuning LLMs to sample diverse reasoning paths with probabilities proportional to the (unnormalized) reward of target problems. Extensive experiments show that, with limited training examples (e.g., 15 examples), FoR enables the discovery of diverse, creative, high-quality solutions, greatly outperforming a wide range of existing inference and training methods across five challenging puzzle-solving tasks, including BlocksWorld (embodied reasoning), Game24 (math puzzle solving), Rubik’s Cube (spatial reasoning), 1D-ARC (abstraction reasoning), and PrOntoQA (logical reasoning). Code is available at https://github.com/Yu-Fangxu/FoR.

arxiv情報

著者 Fangxu Yu,Lai Jiang,Haoqiang Kang,Shibo Hao,Lianhui Qin
発行日 2024-10-04 15:14:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL パーマリンク