Flow of Reasoning:Training LLMs for Divergent Problem Solving with Minimal Examples

要約

特定の問題に対する多様なソリューションを生成する能力は、人間の創造性の特徴です。
この多様な推論は、機械にとっても重要であり、その堅牢性を高め、科学的発見などの多くのアプリケーションで人間を支援できるようにします。
ただし、大規模な言語モデル(LLM)を使用したマルチステップ推論に対する既存のアプローチは、より多様な有効なソリューションをさらに発見することなく、主に推論の精度にのみ焦点を合わせています。
たとえば、監視された微調整はLLMの推論品質を改善することができますが、可能なソリューションの全範囲をキャプチャするために広範な監視されたデータが必要です。
報酬最大化強化学習は、ソリューションの多様性を無視しながら、限られた最高の報酬ソリューションを見つけることを目的としています。
このギャップを埋めるために、最小限のデータで推論の品質と多様性を改善することを目的とした効率的な多様性を求めるLLM Finetuningメソッドである推論の流れ(for)を提案します。
ダグ構造化された推論グラフのマルコフの流れとして、マルチステップLLMの推論を定式化するため。
この定式化により、ターゲットの問題の(正常ではない)報酬に比例した確率でLLMを微調整するために、原則的なGflownetアプローチを組み込み、適応させることができます。
広範な実験では、トレーニングの例が限られている(例:15の例)が、多様で創造的で高品質のソリューションの発見を可能にし、BlockSworldを含む6つの挑戦的な推論タスクにわたって幅広い既存の推論とトレーニング方法を大幅に上回ることを示しています(BlockSworldを含む)
具体化された推論)、Game24(数学パズル解決)、ルービックキューブ(空間推論)、1D-ARC(抽象化
推論)、GSM8K(数学推論)、およびProntoqa(論理的推論)。
コードはhttps://github.com/yu-fangxu/forで入手できます。

要約(オリジナル)

The ability to generate diverse solutions to a given problem is a hallmark of human creativity. This divergent reasoning is also crucial for machines, enhancing their robustness and enabling them to assist humans in many applications such as scientific discovery. However, existing approaches to multi-step reasoning with large language models (LLMs) have mostly focused only on reasoning accuracy, without further discovering more diverse valid solutions. For example, supervised fine-tuning can improve LLM reasoning quality, but requires extensive supervised data to capture the full range of possible solutions. Reward-maximization reinforcement learning aims to find limited highest-reward solutions while neglecting the solution diversity. To fill this gap, we propose Flow of Reasoning (FoR), an efficient diversity-seeking LLM finetuning method aimed at improving reasoning quality and diversity with minimal data. FoR formulates multi-step LLM reasoning as a Markovian flow on a DAG-structured reasoning graph. This formulation allows us to incorporate and adapt principled GFlowNet approaches, for finetuning LLMs to sample divergent paths with probabilities proportional to the (unnormalized) reward of target problems. Extensive experiments show that, with limited training examples (e.g., 15 examples), FoR enables the discovery of diverse, creative, high-quality solutions, greatly outperforming a wide range of existing inference and training methods across six challenging reasoning tasks, including BlocksWorld (embodied reasoning), Game24 (math puzzle solving), Rubik’s Cube (spatial reasoning), 1D-ARC (abstraction reasoning), GSM8k (math reasoning), and ProntoQA (logical reasoning). Code is available at https://github.com/Yu-Fangxu/FoR.

arxiv情報

著者 Fangxu Yu,Lai Jiang,Haoqiang Kang,Shibo Hao,Lianhui Qin
発行日 2025-02-21 16:17:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク