Multi-Agent Sampling: Scaling Inference Compute for Data Synthesis with Tree Search-Based Agentic Collaboration

要約

マルチエージェントシステムでの推論のためのスケーリング法則は、単一エージェントシナリオと比較して依存していないままです。
この作業の目的は、複数の異なる言語モデルからサンプリングすることにより合成応答が生成されるマルチエージェントサンプリングを介してデータ合成の問題を調査することにより、このギャップを埋めることを目的としています。
マルチエージェントコラボレーションを成功させるには、効果的なモデル調整が重要です。
固定ワークフローに依存する以前のアプローチとは異なり、モデル調整をマルチステップの意思決定プロセスとして扱い、各入力質問の生成構造を動的に最適化します。
シーケンシャルサンプリングプロセス中にワークフローが反復的に進化するツリー検索ベースのオーケストレーションエージェント〜(TOA)を紹介します。
これを達成するために、モンテカルロツリー検索(MCTS)を活用して、報酬モデルを統合してリアルタイムのフィードバックを提供し、探索を加速します。
アライメント、機械翻訳、および数学的推論に関する実験は、マルチエージェントサンプリングが、推論計算スケールとしての単一エージェントサンプリングを大幅に上回ることを示しています。
TOAは最も計算効率の良いアプローチであり、WMTでSOTAパフォーマンスを達成し、Alpacaevalで72.2 \%LCの勝率を達成しています。
さらに、合成されたアライメントデータで微調整すると、アリーナハードやアルパカエバルなどの挑戦的なベンチマークに関する強い好み学習方法を上回ります。

要約(オリジナル)

Scaling laws for inference compute in multi-agent systems remain under-explored compared to single-agent scenarios. This work aims to bridge this gap by investigating the problem of data synthesis through multi-agent sampling, where synthetic responses are generated by sampling from multiple distinct language models. Effective model coordination is crucial for successful multi-agent collaboration. Unlike previous approaches that rely on fixed workflows, we treat model coordination as a multi-step decision-making process, optimizing generation structures dynamically for each input question. We introduce Tree Search-based Orchestrated Agents~(TOA), where the workflow evolves iteratively during the sequential sampling process. To achieve this, we leverage Monte Carlo Tree Search (MCTS), integrating a reward model to provide real-time feedback and accelerate exploration. Our experiments on alignment, machine translation, and mathematical reasoning demonstrate that multi-agent sampling significantly outperforms single-agent sampling as inference compute scales. TOA is the most compute-efficient approach, achieving SOTA performance on WMT and a 72.2\% LC win rate on AlpacaEval. Moreover, fine-tuning with our synthesized alignment data surpasses strong preference learning methods on challenging benchmarks such as Arena-Hard and AlpacaEval.

arxiv情報

著者 Hai Ye,Mingbao Lin,Hwee Tou Ng,Shuicheng Yan
発行日 2025-05-19 15:18:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク