Flow of Reasoning: Efficient Training of LLM Policy with Divergent Thinking

要約

発散的思考、つまり多様な解決策を生み出す認知プロセスは、人間の創造性と問題解決の特徴です。
機械にとって、複雑な推論問題における多様な解の軌跡をサンプリングすることは、堅牢な結果、データの増強、モデルの一般化の強化にとって重要です。
大規模言語モデル (LLM) は、高品質で多様な推論を生成するのに苦労することがよくあります。
監視付き微調整は品質向上に役立ちますが、ソリューションの多様性を完全に把握するには広範な監視データが必要です。
あるいは、PPO のような強化学習手法は、収束思考に似た、解の多様性を無視しながら、限定された最高報酬の解を見つけることを目的としています。
これらの制限に対処するために、私たちは、最小限のデータで多様な推論を可能にする効率的な LLM トレーニング アプローチである推論フロー (FoR) を提案します。
FoR は、初期状態から最終状態までのマルコフ フローとして複数ステップの LLM 推論を定式化します。
この定式化により、原則に基づいた GFlowNet アプローチを適用して LLM をポリシーとしてトレーニングすることが可能になり、非正規化報酬に比例する確率で複数の推論パスをサンプリングすることができます。
経験的な結果は、限られたトレーニング データ (例: 15 例) を使用して、FoR ​​が身体的推論 (BlocksWorld)、数学パズルを含む 3 つのタスクにわたって現在の最先端の方法を大幅に上回る、多様で高品質なソリューションを発見できることを示しています。
解決 (Game24)、および論理的推論 (PrOntoQA)。
コードは https://github.com/Yu-Fangxu/FoR で入手できます。

要約(オリジナル)

Divergent thinking, the cognitive process of generating diverse solutions, is a hallmark of human creativity and problem-solving. For machines, sampling diverse solution trajectories in complex reasoning problems is crucial for robust outcomes, data augmentation, and enhanced model generalization. Large language models (LLMs) often struggle with generating high-quality, diverse reasoning. While supervised fine-tuning helps with quality, it requires extensive supervision data to capture the full diversity of solutions. Alternatively, reinforcement learning methods like PPO aim to find limited highest-reward solutions while neglecting the solution diversity, akin to convergent thinking. To address these limitations, we propose Flow of Reasoning (FoR) — an efficient LLM training approach enabling diverse reasoning with minimal data. FoR formulates multi-step LLM reasoning as a Markovian flow from an initial state to terminal states. The formulation allows to adapt principled GFlowNet approaches to train the LLM as a policy, which is able to sample multiple reasoning paths with probabilities proportional to the unnormalized reward. Empirical results show that, with limited training data (e.g., 15 examples), FoR can discover diverse high-quality solutions that excel greatly beyond current state-of-the-art methods across three tasks, including embodied reasoning (BlocksWorld), math puzzle solving (Game24), and logical reasoning (PrOntoQA). Code is available at https://github.com/Yu-Fangxu/FoR.

arxiv情報

著者 Fangxu Yu,Lai Jiang,Haoqiang Kang,Shibo Hao,Lianhui Qin
発行日 2024-06-24 15:49:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク