LBAP: Improved Uncertainty Alignment of LLM Planners using Bayesian Inference

要約

大規模な言語モデル(LLMS)は、インテリジェントで役立つロボットの多くの望ましい特性を紹介します。
ただし、予測を幻覚させることも知られています。
この問題は、LLMの幻覚により、ロボットがユーザーの目標に反したり、人間の援助に頻繁に依存したりする計画を自信を持って実行する可能性のあるロボット工学で悪化しています。
この作業では、幻覚と人間の介入を最小限に抑えるロボットプランナーの不確実性のアライメントに対するベイジアン推論とともに、既製のLLMSを利用するための新しいアプローチであるLBAPを提示します。
私たちの重要な発見は、ベイジアン推論を使用して、シーンの接地と世界の知識の両方を考慮して、ロボットの信頼測定値をより正確に調整できることです。
このプロセスにより、幻覚を軽減し、LLMの信頼測定値を成功の確率に合わせてより適切に整合することができます。
さまざまなあいまいさのあるタスクでのシミュレーションと現実世界の両方の実験を通じて、LBAPは成功率を大幅に増加させ、以前のARTと比較して必要な人間の介入の量を減らすことを示しています。
たとえば、実際のテストパラダイムでは、LBAPは、70%の成功率で以前の方法の人間のヘルプ率を33%以上減少させます。

要約(オリジナル)

Large language models (LLMs) showcase many desirable traits for intelligent and helpful robots. However, they are also known to hallucinate predictions. This issue is exacerbated in robotics where LLM hallucinations may result in robots confidently executing plans that are contrary to user goals or relying more frequently on human assistance. In this work, we present LBAP, a novel approach for utilizing off-the-shelf LLMs, alongside Bayesian inference for uncertainty Alignment in robotic Planners that minimizes hallucinations and human intervention. Our key finding is that we can use Bayesian inference to more accurately calibrate a robots confidence measure through accounting for both scene grounding and world knowledge. This process allows us to mitigate hallucinations and better align the LLM’s confidence measure with the probability of success. Through experiments in both simulation and the real world on tasks with a variety of ambiguities, we show that LBAP significantly increases success rate and decreases the amount of human intervention required relative to prior art. For example, in our real-world testing paradigm, LBAP decreases the human help rate of previous methods by over 33% at a success rate of 70%.

arxiv情報

著者 James F. Mullen Jr.,Dinesh Manocha
発行日 2025-06-17 17:20:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク