LLM-SAP: Large Language Model Situational Awareness Based Planning

要約

本研究は、大規模な言語モデルにおいて、状況認識に基づく創発的なプランニング能力を評価する先駆的な研究である。(i)標準化された評価のための新しいベンチマークとメトリクス、(ii)進歩に拍車をかけるためのユニークなデータセット、(iii)プロンプトとマルチエージェントスキームが、状況に応じたプランニングタスクにおけるプランニング性能を大幅に向上させることを実証する。状況エージェントと自動プランニング研究の中にこれを位置づけることで、我々は固有の信頼性の課題を強調する–シミュレートされた領域の進歩にもかかわらず、環境ガイダンスなしで世界の状態を行動に効率的にマッピングすることは未解決のままである。範囲外ではあるが、検証方法とデータの利用可能性に関する限界は、拡大されたプランニングコーパスでの微調整や、高速な潜在プランニングをトリガーするための最適化など、エキサイティングな方向性を示している。厳密な比較によって現在の手法の有望性と限界を決定的に示すことで、我々は、位置するエージェントのための信頼性の高いゴール指向推論を調査する触媒となる。

要約(オリジナル)

This work pioneers evaluating emergent planning capabilities based on situational awareness in large language models. We contribute (i) novel benchmarks and metrics for standardized assessment; (ii) a unique dataset to spur progress; and (iii) demonstrations that prompting and multi-agent schemes significantly enhance planning performance in context-sensitive planning tasks. Positioning this within a situated agent and automated planning research, we highlight inherent reliability challenges–efficiently mapping world states to actions without environmental guidance remains open despite simulated domain advances. Although out-of-scope, limitations around validation methodology and data availability indicate exciting directions, including fine-tuning on expanded planning corpora and optimizations for triggering fast latent planning. By conclusively demonstrating current methods’ promise and limitations via rigorous comparison, we catalyze investigating reliable goal-directed reasoning for situated agents.

arxiv情報

著者 Liman Wang,Hanyang Zhong
発行日 2024-01-03 15:13:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI パーマリンク