Flow-DPO: Improving LLM Mathematical Reasoning through Online Multi-Agent Learning

要約

数学的推論は大規模言語モデル (LLM) にとって重要な機能ですが、詳細かつ正確な推論トレースを生成することは依然として大きな課題です。
この論文では、オンライン学習 \textbf{Flows} を使用して LLM 微調整のための高品質な推論トレースを生成する新しいアプローチを紹介します。
私たちの方法では、コンポーネント LLM が反復通信を通じて共同でソリューションを構築する、増分出力生産フローを採​​用しています。
ロールアウトを使用したオンラインの Direct Preference Optimization (DPO) 学習を使用してフローをトレーニングし、トレーニング サンプルごとに DPO ペアを生成し、モデルをリアルタイムで更新します。
私たちの方法によって生成された推論トレースの品質を、直接モデル推論によって生成された推論トレースの品質と直接比較し、数学的推論タスクにおける LLM パフォーマンスの向上における私たちのアプローチの有効性を実証します。

要約(オリジナル)

Mathematical reasoning is a crucial capability for Large Language Models (LLMs), yet generating detailed and accurate reasoning traces remains a significant challenge. This paper introduces a novel approach to produce high-quality reasoning traces for LLM fine-tuning using online learning \textbf{Flows}. Our method employs an incremental output production Flow, where component LLMs collaboratively construct solutions through iterative communication. We train the Flow using online Direct Preference Optimization (DPO) learning with rollouts, generating DPO pairs for each training example and updating models in real-time. We directly compare the quality of reasoning traces generated by our method with those produced through direct model inference, demonstrating the effectiveness of our approach in improving LLM performance in mathematical reasoning tasks.

arxiv情報

著者 Yihe Deng,Paul Mineiro
発行日 2024-10-29 17:50:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク