要約
大規模言語モデル (LLM) による人間のような動作のエミュレーションは目覚ましい進歩を遂げていますが、現在のテキスト シミュレーションは時間の概念に適切に対応していません。
この目的を達成するために、現実の計画シナリオをよりよく反映する複雑な時間的ダイナミクスと制約を組み込んだ、新しいテキストのシミュレート環境である TimeArena を紹介します。
TimeArena では、エージェントは複数のタスクをできるだけ早く完了するよう求められ、並行処理により時間を節約できます。
アクション間の依存関係、各アクションの継続時間、環境内のエージェントとオブジェクトの占有を実装します。
TimeArena は、料理、家事、研究室での作業など、現実世界の 30 のタスクに基づいています。
私たちは、TimeArena を使用して、さまざまな最先端の LLM で広範な実験を行っています。
私たちの調査結果は、GPT-4などの最も強力なモデルでさえ、効率的なマルチタスク処理において依然として人間に遅れをとっていることを明らかにし、言語エージェントの開発における時間的認識の強化の必要性を強調しています。
要約(オリジナル)
Despite remarkable advancements in emulating human-like behavior through Large Language Models (LLMs), current textual simulations do not adequately address the notion of time. To this end, we introduce TimeArena, a novel textual simulated environment that incorporates complex temporal dynamics and constraints that better reflect real-life planning scenarios. In TimeArena, agents are asked to complete multiple tasks as soon as possible, allowing for parallel processing to save time. We implement the dependency between actions, the time duration for each action, and the occupancy of the agent and the objects in the environment. TimeArena grounds to 30 real-world tasks in cooking, household activities, and laboratory work. We conduct extensive experiments with various state-of-the-art LLMs using TimeArena. Our findings reveal that even the most powerful models, e.g., GPT-4, still lag behind humans in effective multitasking, underscoring the need for enhanced temporal awareness in the development of language agents.
arxiv情報
著者 | Yikai Zhang,Siyu Yuan,Caiyu Hu,Kyle Richardson,Yanghua Xiao,Jiangjie Chen |
発行日 | 2024-02-08 15:08:57+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google