Robots That Ask For Help: Uncertainty Alignment for Large Language Model Planners

要約

大規模言語モデル (LLM) は、段階的な計画から常識的な推論に至るまで、幅広い有望な機能を示し、ロボットに有用性をもたらす可能性がありますが、自信を持って幻覚的な予測を行う傾向が依然として残ります。
この研究では、LLM ベースのプランナーの不確実性を測定して調整するためのフレームワークである KnowNo を紹介します。これにより、プランナーは、いつわからないかを知り、必要なときに助けを求めることができます。
KnowNo は、等角予測の理論に基づいて構築されており、複雑な複数ステップの計画設定における人間の支援を最小限に抑えながら、タスクの完了を統計的に保証します。
さまざまなモードのあいまいさ (空間的な不確実性から数値の不確実性、人間の好みから Winograd スキーマなど) を持つタスクを含む、さまざまなシミュレートされた実際のロボット セットアップにわたる実験では、KnowNo が最新のベースライン (アンサンブルや広範なプロンプトを含む場合がある) よりも有利に機能することが示されています。
調整) の観点から、正式な保証を提供しながら、効率と自律性を向上させます。
KnowNo は、モデルの微調整を行わずに、すぐに LLM とともに使用でき、基礎モデルの成長する機能を補完し、拡張できる不確実性をモデリングするための有望な軽量アプローチを提案します。
ウェブサイト: https://robot-help.github.io

要約(オリジナル)

Large language models (LLMs) exhibit a wide range of promising capabilities — from step-by-step planning to commonsense reasoning — that may provide utility for robots, but remain prone to confidently hallucinated predictions. In this work, we present KnowNo, which is a framework for measuring and aligning the uncertainty of LLM-based planners such that they know when they don’t know and ask for help when needed. KnowNo builds on the theory of conformal prediction to provide statistical guarantees on task completion while minimizing human help in complex multi-step planning settings. Experiments across a variety of simulated and real robot setups that involve tasks with different modes of ambiguity (e.g., from spatial to numeric uncertainties, from human preferences to Winograd schemas) show that KnowNo performs favorably over modern baselines (which may involve ensembles or extensive prompt tuning) in terms of improving efficiency and autonomy, while providing formal assurances. KnowNo can be used with LLMs out of the box without model-finetuning, and suggests a promising lightweight approach to modeling uncertainty that can complement and scale with the growing capabilities of foundation models. Website: https://robot-help.github.io

arxiv情報

著者 Allen Z. Ren,Anushri Dixit,Alexandra Bodrova,Sumeet Singh,Stephen Tu,Noah Brown,Peng Xu,Leila Takayama,Fei Xia,Jake Varley,Zhenjia Xu,Dorsa Sadigh,Andy Zeng,Anirudha Majumdar
発行日 2023-09-04 16:06:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO, stat.AP パーマリンク