APIGen-MT: Agentic Pipeline for Multi-Turn Data Generation via Simulated Agent-Human Interplay

要約

マルチターン相互作用のための効果的なAIエージェントのトレーニングには、現実的なヒューマンエージェントダイナミクスをキャプチャする高品質のデータが必要ですが、そのようなデータは手動で収集するのに少ない費用がかかります。
検証可能で多様なマルチターンエージェントデータを生成する2相フレームワークであるApigen-MTを紹介します。
第1フェーズでは、エージェントパイプラインは、LLMレビュアーの委員会と反復フィードバックループを活用して、グラウンドトゥルースアクションを備えた詳細なタスクの青写真を作成します。
これらの青写真は、シミュレートされたヒトエージェント相互作用により、完全な相互作用の軌跡に変換されます。
モデルのファミリーをトレーニングします – 1Bから70Bのパラメーターの範囲のサイズのXLAM-2-FC-Rシリーズ。
私たちのモデルは、$ \ tau $ -benchおよびBFCLベンチマークでGPT-4oやClaude 3.5などのフロンティアモデルを上回り、特に複数の試行で優れた一貫性を維持しながら、より大きなカウンターパートを超えて、より大きなカウンターパートを上回ります。
包括的な実験は、検証された青写真から控えめアプローチが高品質のトレーニングデータを生成し、より信頼性が高く、効率的で有能なエージェントの開発を可能にすることを示しています。
収集された合成データと、AIエージェントの研究を進めるために訓練されたXLAM-2-FC-Rモデルの両方をオープンソースで囲みます。
モデルは、https://huggingface.co/collections/salesforce/xlam-2-67EF5BE12949D8DCDAE354C4のハグFaceで入手できます。

要約(オリジナル)

Training effective AI agents for multi-turn interactions requires high-quality data that captures realistic human-agent dynamics, yet such data is scarce and expensive to collect manually. We introduce APIGen-MT, a two-phase framework that generates verifiable and diverse multi-turn agent data. In the first phase, our agentic pipeline produces detailed task blueprints with ground-truth actions, leveraging a committee of LLM reviewers and iterative feedback loops. These blueprints are then transformed into complete interaction trajectories through simulated human-agent interplay. We train a family of models — the xLAM-2-fc-r series with sizes ranging from 1B to 70B parameters. Our models outperform frontier models such as GPT-4o and Claude 3.5 on $\tau$-bench and BFCL benchmarks, with the smaller models surpassing their larger counterparts, particularly in multi-turn settings, while maintaining superior consistency across multiple trials. Comprehensive experiments demonstrate that our verified blueprint-to-details approach yields high-quality training data, enabling the development of more reliable, efficient, and capable agents. We open-source both the synthetic data collected and the trained xLAM-2-fc-r models to advance research in AI agents. Models are available on HuggingFace at https://huggingface.co/collections/Salesforce/xlam-2-67ef5be12949d8dcdae354c4 and project website is https://apigen-mt.github.io

arxiv情報

著者 Akshara Prabhakar,Zuxin Liu,Ming Zhu,Jianguo Zhang,Tulika Awalgaonkar,Shiyu Wang,Zhiwei Liu,Haolin Chen,Thai Hoang,Juan Carlos Niebles,Shelby Heinecke,Weiran Yao,Huan Wang,Silvio Savarese,Caiming Xiong
発行日 2025-04-08 17:46:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク