APIGen-MT: Agentic Pipeline for Multi-Turn Data Generation via Simulated Agent-Human Interplay

要約

マルチターン対話のための効果的なAIエージェントのトレーニングには、現実的な人間とエージェントのダイナミクスを捉えた高品質なデータが必要であるが、そのようなデータは少なく、手作業で収集するにはコストがかかる。我々は、検証可能で多様なマルチターンエージェントデータを生成する2段階のフレームワークであるAPIGen-MTを紹介する。第一段階では、我々のエージェントパイプラインは、LLMレビュアーの委員会と反復的なフィードバックループを活用し、グラウンドトゥルースのアクションを持つ詳細なタスクの青写真を生成する。次に、これらの青写真は、シミュレートされた人間とエージェントの相互作用を通して、完全な相互作用の軌跡に変換される。xLAM-2-fc-rシリーズは1Bから70Bのパラメータを持つ。我々のモデルは、$tau$-benchやBFCLベンチマークにおいて、GPT-4oやClaude 3.5のようなフロンティアモデルを凌駕し、特にマルチターン設定において、複数の試行にわたって優れた一貫性を維持しながら、小さいモデルが大きいモデルを凌駕する。包括的な実験により、我々の検証されたblueprint-to-detailsアプローチが、より信頼性が高く、効率的で、有能なエージェントの開発を可能にする、高品質のトレーニングデータをもたらすことが実証された。我々はAIエージェントの研究を促進するために、収集した合成データと学習させたxLAM-2-fc-rモデルの両方をオープンソースとして公開している。モデルはHuggingFaceのhttps://huggingface.co/collections/Salesforce/xlam-2-67ef5be12949d8dcdae354c4、プロジェクトのウェブサイトはhttps://apigen-mt.github.io。

要約(オリジナル)

Training effective AI agents for multi-turn interactions requires high-quality data that captures realistic human-agent dynamics, yet such data is scarce and expensive to collect manually. We introduce APIGen-MT, a two-phase framework that generates verifiable and diverse multi-turn agent data. In the first phase, our agentic pipeline produces detailed task blueprints with ground-truth actions, leveraging a committee of LLM reviewers and iterative feedback loops. These blueprints are then transformed into complete interaction trajectories through simulated human-agent interplay. We train a family of models — the xLAM-2-fc-r series with sizes ranging from 1B to 70B parameters. Our models outperform frontier models such as GPT-4o and Claude 3.5 on $\tau$-bench and BFCL benchmarks, with the smaller models surpassing their larger counterparts, particularly in multi-turn settings, while maintaining superior consistency across multiple trials. Comprehensive experiments demonstrate that our verified blueprint-to-details approach yields high-quality training data, enabling the development of more reliable, efficient, and capable agents. We open-source both the synthetic data collected and the trained xLAM-2-fc-r models to advance research in AI agents. Models are available on HuggingFace at https://huggingface.co/collections/Salesforce/xlam-2-67ef5be12949d8dcdae354c4 and project website is https://apigen-mt.github.io

arxiv情報

著者 Akshara Prabhakar,Zuxin Liu,Weiran Yao,Jianguo Zhang,Ming Zhu,Shiyu Wang,Zhiwei Liu,Tulika Awalgaonkar,Haolin Chen,Thai Hoang,Juan Carlos Niebles,Shelby Heinecke,Huan Wang,Silvio Savarese,Caiming Xiong
発行日 2025-04-04 17:13:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク