ChinaTravel: A Real-World Benchmark for Language Agents in Chinese Travel Planning

要約

LLM、特に言語推論とツールの統合における最近の進歩により、現実世界での言語エージェントの開発が急速に加速しています。
その中でも、旅行計画は、学術的な課題と、その複雑さと市場の需要による実用的な価値を組み合わせた、傑出した分野を代表しています。
しかし、既存のベンチマークは、導入に不可欠な現実世界の多様な要件を反映できていません。
このギャップに対処するために、本格的な中国の旅行計画シナリオ向けに特別に設計されたベンチマークである ChinaTravel を紹介します。
私たちはアンケートから旅行要件を収集し、実現可能性、制約の満足度、好みの比較をカバーするスケーラブルな評価プロセスを可能にする、構成的に一般化可能なドメイン固有の言語を提案します。
実証研究により、旅行計画における神経象徴エージェントの可能性が明らかになり、制約満足率 27.9% を達成し、純粋な神経モデルの 2.6% を大幅に上回りました。
さらに、オープン言語推論や目に見えない概念構成など、現実世界の旅行計画の展開における主要な課題を特定します。
これらの調査結果は、複雑な現実世界の計画シナリオにおいて言語エージェントを進歩させるための極めて重要なマイルストーンとしてのチャイナトラベルの重要性を浮き彫りにしています。

要約(オリジナル)

Recent advances in LLMs, particularly in language reasoning and tool integration, have rapidly sparked the real-world development of Language Agents. Among these, travel planning represents a prominent domain, combining academic challenges with practical value due to its complexity and market demand. However, existing benchmarks fail to reflect the diverse, real-world requirements crucial for deployment. To address this gap, we introduce ChinaTravel, a benchmark specifically designed for authentic Chinese travel planning scenarios. We collect the travel requirements from questionnaires and propose a compositionally generalizable domain-specific language that enables a scalable evaluation process, covering feasibility, constraint satisfaction, and preference comparison. Empirical studies reveal the potential of neuro-symbolic agents in travel planning, achieving a constraint satisfaction rate of 27.9%, significantly surpassing purely neural models at 2.6%. Moreover, we identify key challenges in real-world travel planning deployments, including open language reasoning and unseen concept composition. These findings highlight the significance of ChinaTravel as a pivotal milestone for advancing language agents in complex, real-world planning scenarios.

arxiv情報

著者 Jie-Jing Shao,Xiao-Wen Yang,Bo-Wen Zhang,Baizhi Chen,Wen-Da Wei,Guohao Cai,Zhenhua Dong,Lan-Zhe Guo,Yu-feng Li
発行日 2024-12-20 15:08:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク