要約
最近の調査によると、LLMは「信頼できる」人間の行動を、プロンプトのみの方法を介してLLMエージェントをパワーすることができることが示されています。
この作業では、Webアクション生成タスクの主観的な「信じる性」ではなく、LLMの客観的な「精度」の評価と改善に焦点を当て、オンラインショッピングの人間アクションから収集された大規模で実世界のデータセットを活用しています。
Webアクション生成のタスクに関する最先端のLLMS(Deepseek-R1、Llama、Claudeなど)の最初の包括的な定量的評価を提示します。
私たちの結果は、実際の行動データのLLMを微調整すると、プロンプトのみの方法と比較してアクションを生成する能力が大幅に向上することを示しています。
さらに、合成された推論トレースをモデルトレーニングに組み込むと、パフォーマンスが追加の向上につながり、行動モデリングにおける明示的な理論的根拠の価値が示されます。
この作業は、行動シミュレーションでLLMを評価するための新しいベンチマークを確立し、実際のアクションデータと推論増強がLLMエージェントの忠実度を高める方法についての実用的な洞察を提供します。
要約(オリジナル)
Recent research shows that LLMs can simulate “believable” human behaviors to power LLM agents via prompt-only methods. In this work, we focus on evaluating and improving LLM’s objective “accuracy” rather than the subjective “believability” in the web action generation task, leveraging a large-scale, real-world dataset collected from online shopping human actions. We present the first comprehensive quantitative evaluation of state-of-the-art LLMs (e.g., DeepSeek-R1, Llama, and Claude) on the task of web action generation. Our results show that fine-tuning LLMs on real-world behavioral data substantially improves their ability to generate actions compared to prompt-only methods. Furthermore, incorporating synthesized reasoning traces into model training leads to additional performance gains, demonstrating the value of explicit rationale in behavior modeling. This work establishes a new benchmark for evaluating LLMs in behavior simulation and offers actionable insights into how real-world action data and reasoning augmentation can enhance the fidelity of LLM agents.
arxiv情報
著者 | Yuxuan Lu,Jing Huang,Yan Han,Bennet Bei,Yaochen Xie,Dakuo Wang,Jessie Wang,Qi He |
発行日 | 2025-03-27 02:42:03+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google