Towards Full Delegation: Designing Ideal Agentic Behaviors for Travel Planning

要約

LLM ベースのエージェントは将来どのように使用されますか?
エージェントに関する既存の研究の多くは、特定の目的的で困難なタスクのパフォーマンスを向上させることに重点を置いていますが、この研究では、完全な委任について考えることで、異なる視点を採用しています。つまり、エージェントは人間の日常的な意思決定プロセスを引き継ぎ、
人々の個別のニーズに適合し、常に変化する状況に適応するソリューションを見つけるために人間から信頼されています。
このような目標を達成するためには、エージェントの行動、つまりエージェントの行動は、その成果(成果評価)だけでなく、それをどのように達成したか(手順評価)も評価される必要があります。
このため、私たちは、正確さ、積極性、効率性、信頼性など、エージェントが優れたエージェント行動を行うために従うべき基準のリストである APEC エージェント憲法を提案します。
APECが人間の嗜好と一致しているかどうかを検証するために、私たちは旅行者との多面的な対話を通じて潜在的な個別ニーズを積極的に抽出する旅行企画エージェントであるAPEC-Travelを開発します。
APEC-Travel は、対話の豊富な分布をシミュレートするために、旅行者の多様なペルソナを使用して Llama3.1-405B-Instruct によって生成された合成データのみから構築されています。
APEC エージェント規約に従うように繰り返し微調整された APEC-Travel は、規約軸全体でルールベースの指標でベースラインを 20.7%、裁判官としての LLM スコアで 9.1% 上回りました。

要約(オリジナル)

How are LLM-based agents used in the future? While many of the existing work on agents has focused on improving the performance of a specific family of objective and challenging tasks, in this work, we take a different perspective by thinking about full delegation: agents take over humans’ routine decision-making processes and are trusted by humans to find solutions that fit people’s personalized needs and are adaptive to ever-changing context. In order to achieve such a goal, the behavior of the agents, i.e., agentic behaviors, should be evaluated not only on their achievements (i.e., outcome evaluation), but also how they achieved that (i.e., procedure evaluation). For this, we propose APEC Agent Constitution, a list of criteria that an agent should follow for good agentic behaviors, including Accuracy, Proactivity, Efficiency and Credibility. To verify whether APEC aligns with human preferences, we develop APEC-Travel, a travel planning agent that proactively extracts hidden personalized needs via multi-round dialog with travelers. APEC-Travel is constructed purely from synthetic data generated by Llama3.1-405B-Instruct with a diverse set of travelers’ persona to simulate rich distribution of dialogs. Iteratively fine-tuned to follow APEC Agent Constitution, APEC-Travel surpasses baselines by 20.7% on rule-based metrics and 9.1% on LLM-as-a-Judge scores across the constitution axes.

arxiv情報

著者 Song Jiang,Da JU,Andrew Cohen,Sasha Mitts,Aaron Foss,Justine T Kao,Xian Li,Yuandong Tian
発行日 2024-11-21 07:30:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク