ScoreFlow: Mastering LLM Agent Workflows via Score-based Preference Optimization

要約

最近の研究では、複雑な問題解決のための大規模な言語モデルマルチエージェントシステムを活用しながら、それらを構築するために必要な手動の努力を減らし、自動エージェントワークフロー最適化方法の開発を促進しようとしています。
ただし、表現の制限、適応性の欠如、および離散最適化手法に依存する場合のスケーラビリティが低いため、既存の方法は柔軟性がありません。
これらの課題は、連続空間で効率的なグラデーションベースの最適化を活用するシンプルでありながら高性能フレームワークであるScoreFlowで対処します。
ScoreFlowには、定量的フィードバックを説明する直接優先最適化方法の新しいバリアントであるScore-DPOが組み込まれています。
質問の回答、コーディング、数学的推論にまたがる6つのベンチマークにわたって、ScoreFlowは既存のベースラインよりも8.2%の改善を達成します。
さらに、より小さなモデルが推論コストが低い大きなモデルを上回ることができます。
プロジェクト:https://github.com/gen-verse/scoreflow

要約(オリジナル)

Recent research has leveraged large language model multi-agent systems for complex problem-solving while trying to reduce the manual effort required to build them, driving the development of automated agent workflow optimization methods. However, existing methods remain inflexible due to representational limitations, a lack of adaptability, and poor scalability when relying on discrete optimization techniques. We address these challenges with ScoreFlow, a simple yet high-performance framework that leverages efficient gradient-based optimization in a continuous space. ScoreFlow incorporates Score-DPO, a novel variant of the direct preference optimization method that accounts for quantitative feedback. Across six benchmarks spanning question answering, coding, and mathematical reasoning, ScoreFlow achieves an 8.2% improvement over existing baselines. Moreover, it empowers smaller models to outperform larger ones with lower inference costs. Project: https://github.com/Gen-Verse/ScoreFlow

arxiv情報

著者 Yinjie Wang,Ling Yang,Guohao Li,Mengdi Wang,Bryon Aragam
発行日 2025-02-06 18:47:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク