要約
この論文では、LLM が自然言語によってシミュレートされた仮想空間環境を理解し、それに応じてテキストで動作する必要がある複雑な計画タスクにおける LLM のパフォーマンスを調査することに率先して取り組んでいます。
私たちは、Brick World、NLVR ベースの操作、および Natural Language Navigation という新しいタスクのセットで構成される、Natural Language Planning and Action (Natala) という名前のベンチマークを提案します。
ChatGPT などの現在人気のある LLM には、複雑な計画を立てる能力がまだ不足していることがわかりました。
ここで疑問が生じます。LLM は自然言語で記述された環境をよく理解しているのでしょうか、それともシンボリック表現などの他の代替手段の方がすっきりしていて、LLM によって理解されやすいのでしょうか?
この目的を達成するために、我々は、連鎖された中間思考ステップ中に凝縮された記号空間表現で複雑な環境を表現する、CoS (Chain-of-Symbol Prompting) と呼ばれる新しい方法を提案します。
CoS は使いやすく、LLM に関する追加のトレーニングは必要ありません。
広範な実験により、CoS は、ChatGPT および InstructGPT の CoT と比較して、入力で使用されるトークンがさらに少なく、3 つの計画タスクすべてにおいて思考連鎖 (CoT) プロンプトのパフォーマンスを明らかに上回っていることが示されています。
パフォーマンスの向上は大きく、Brick World for ChatGPT では精度が最大 60.8% (31.8% から 92.6%) 向上しました。
また、CoS は、プロンプト内のトークンの数を明らかに削減し、Brick World でのデモンストレーションの中間ステップのトークンの最大 65.8% (407 から 139 へ) を削減します。
要約(オリジナル)
In this paper, we take the initiative to investigate the performance of LLMs on complex planning tasks that require LLMs to understand a virtual spatial environment simulated via natural language and act correspondingly in text. We propose a benchmark named Natural Language Planning and Action (Natala) composed of a set of novel tasks: Brick World, NLVR-based Manipulations, and Natural Language Navigation. We found that current popular LLMs such as ChatGPT still lack abilities in complex planning. This arises a question — do the LLMs have a good understanding of the environments described in natural language, or maybe other alternatives such as symbolic representations are neater and hence better to be understood by LLMs? To this end, we propose a novel method called CoS (Chain-of-Symbol Prompting) that represents the complex environments with condensed symbolic spatial representations during the chained intermediate thinking steps. CoS is easy to use and does not need additional training on LLMs. Extensive experiments indicate that CoS clearly surpasses the performance of the Chain-of-Thought (CoT) Prompting in all three planning tasks with even fewer tokens used in the inputs compared with CoT on ChatGPT and InstructGPT. The performance gain is strong, by up to 60.8% accuracy (from 31.8% to 92.6%) on Brick World for ChatGPT. CoS also reduces the number of tokens in the prompt obviously, by up to 65.8% of the tokens (from 407 to 139) for the intermediate steps from demonstrations on Brick World.
arxiv情報
著者 | Hanxu Hu,Hongyuan Lu,Huajian Zhang,Wai Lam,Yue Zhang |
発行日 | 2023-06-06 15:15:22+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google