要約
この研究は、大規模な言語モデルにおける状況認識に基づいた創発的な計画能力を評価する先駆者です。
私たちは、(i) 標準化された評価のための新しいベンチマークと指標に貢献します。
(ii) 進歩を促す独自のデータセット。
(iii) プロンプトとマルチエージェントのスキームが、状況に応じた計画タスクにおける計画のパフォーマンスを大幅に向上させることを実証します。
これを、状況に応じたエージェントと自動化された計画の研究内に位置づけ、本質的な信頼性の課題を強調します。つまり、環境ガイダンスなしで世界の状態を行動に効率的にマッピングすることは、シミュレートされたドメインの進歩にも関わらず未解決のままです。
範囲外ではありますが、検証方法とデータの可用性に関する制限は、拡張された計画コーパスの微調整や、高速な潜在計画をトリガーするための最適化など、刺激的な方向性を示しています。
厳密な比較を通じて現在の手法の可能性と限界を最終的に実証することで、状況に応じたエージェントに対する信頼性の高い目標指向推論の調査を促進します。
要約(オリジナル)
This work pioneers evaluating emergent planning capabilities based on situational awareness in large language models. We contribute (i) novel benchmarks and metrics for standardized assessment; (ii) a unique dataset to spur progress; and (iii) demonstrations that prompting and multi-agent schemes significantly enhance planning performance in context-sensitive planning tasks. Positioning this within a situated agent and automated planning research, we highlight inherent reliability challenges–efficiently mapping world states to actions without environmental guidance remains open despite simulated domain advances. Although out-of-scope, limitations around validation methodology and data availability indicate exciting directions, including fine-tuning on expanded planning corpora and optimizations for triggering fast latent planning. By conclusively demonstrating current methods’ promise and limitations via rigorous comparison, we catalyze investigating reliable goal-directed reasoning for situated agents.
arxiv情報
著者 | Liman Wang,Hanyang Zhong |
発行日 | 2023-12-26 17:19:09+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google