TravelPlanner: A Benchmark for Real-World Planning with Language Agents

要約

プランニングは、人工知能が誕生して以来、その核心的な追求の一部であったが、初期のAIエージェントは、人間レベルのプランニングに必要な認知的基盤の多くが欠けていたため、制約された設定に焦点を当てたものがほとんどであった。近年、大規模言語モデル(LLM)を搭載した言語エージェントが、道具の使用や推論といった興味深い能力を示している。このような言語エージェントは、先行するAIエージェントが到達できないような、より複雑な環境でのプランニングが可能なのだろうか?この研究を進めるために、我々はTravelPlannerを提案する。TravelPlannerは、現実世界の一般的な計画シナリオである旅行計画に焦点を当てた新しい計画ベンチマークである。TravelPlannerは、リッチなサンドボックス環境、約400万件のデータレコードにアクセスするための様々なツール、1,225の綿密にキュレーションされた計画意図と参照計画を提供する。包括的な評価では、現在の言語エージェントは、このような複雑な計画タスクを処理する能力がまだないことが示されている。言語エージェントは、タスクに留まること、情報を収集するために適切なツールを使用すること、複数の制約を追跡することに苦労している。しかしながら、言語エージェントがこのような複雑な問題に取り組む可能性があること自体が、自明な進歩ではないことに我々は注目する。TravelPlannerは、将来の言語エージェントにとって挑戦的でありながら有意義なテストベッドを提供する。

要約(オリジナル)

Planning has been part of the core pursuit for artificial intelligence since its conception, but earlier AI agents mostly focused on constrained settings because many of the cognitive substrates necessary for human-level planning have been lacking. Recently, language agents powered by large language models (LLMs) have shown interesting capabilities such as tool use and reasoning. Are these language agents capable of planning in more complex settings that are out of the reach of prior AI agents? To advance this investigation, we propose TravelPlanner, a new planning benchmark that focuses on travel planning, a common real-world planning scenario. It provides a rich sandbox environment, various tools for accessing nearly four million data records, and 1,225 meticulously curated planning intents and reference plans. Comprehensive evaluations show that the current language agents are not yet capable of handling such complex planning tasks-even GPT-4 only achieves a success rate of 0.6%. Language agents struggle to stay on task, use the right tools to collect information, or keep track of multiple constraints. However, we note that the mere possibility for language agents to tackle such a complex problem is in itself non-trivial progress. TravelPlanner provides a challenging yet meaningful testbed for future language agents.

arxiv情報

著者 Jian Xie,Kai Zhang,Jiangjie Chen,Tinghui Zhu,Renze Lou,Yuandong Tian,Yanghua Xiao,Yu Su
発行日 2024-02-05 06:48:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL パーマリンク