要約
プランニングは人間の知能の基本的な性質である。非同期計画に関する推論は、時間コストを最適化するために逐次計画と並列計画を必要とするため、困難である。大規模言語モデル(LLM)はこのタスクを成功させることができるのだろうか?ここでは、この疑問を調査した最初の大規模研究を紹介する。我々は、GPT-4やLLaMA-2を含む、代表的なクローズドおよびオープンソースのLLMが、我々のベンチマークAsyncHowにおいて、タスク解決プロセスに関する図解が提供されない場合、貧弱な振る舞いをすることを発見した。我々は、グラフと自然言語プロンプトを組み合わせたPLaG(Plan Like a Graph)と呼ばれる新しい手法を提案し、最先端の結果を達成した。PLaGはモデル性能を向上させるが、タスクの複雑さが増すとLLMは依然として劇的な劣化に悩まされることを示し、デジタル機器のシミュレーションにLLMを利用することの限界を浮き彫りにする。我々の研究は、LLMを効率的な自律エージェントとして利用するためのエキサイティングな一歩である。我々のコードとデータはhttps://github.com/fangru-lin/graph-llm-asynchow-plan。
要約(オリジナル)
Planning is a fundamental property of human intelligence. Reasoning about asynchronous plans is challenging since it requires sequential and parallel planning to optimize time costs. Can large language models (LLMs) succeed at this task? Here, we present the first large-scale study investigating this question. We find that a representative set of closed and open-source LLMs, including GPT-4 and LLaMA-2, behave poorly when not supplied with illustrations about the task-solving process in our benchmark AsyncHow. We propose a novel technique called Plan Like a Graph (PLaG) that combines graphs with natural language prompts and achieves state-of-the-art results. We show that although PLaG can boost model performance, LLMs still suffer from drastic degradation when task complexity increases, highlighting the limits of utilizing LLMs for simulating digital devices. We see our study as an exciting step towards using LLMs as efficient autonomous agents. Our code and data are available at https://github.com/fangru-lin/graph-llm-asynchow-plan.
arxiv情報
著者 | Fangru Lin,Emanuele La Malfa,Valentin Hofmann,Elle Michelle Yang,Anthony Cohn,Janet B. Pierrehumbert |
発行日 | 2024-06-03 13:07:06+00:00 |
arxivサイト | arxiv_id(pdf) |