要約
大規模言語モデル (LLM) は、インテリジェントで役立つロボットに望ましい特性を数多く示しています。
しかし、彼らは幻覚的な予測をすることも知られています。
この問題はロボット工学においてさらに悪化し、LLM 幻覚により、ロボットがユーザーの目標に反する計画を自信を持って実行したり、人間の支援に依存することが多くなったり、ロボットがまったく助けを求めなくなったりする可能性があります。
この研究では、有害な幻覚や人間の介入を最小限に抑えるロボット プランナーで、既製の LLM を利用するための新しいアプローチである LAP と、新しいアクション実行可能性メトリクスを紹介します。
私たちの主な発見は、A-Feasibility と呼ばれる新しい指標 (指定されたシーンで特定のアクションが可能で安全であるかどうかの尺度) を計算して活用することで、LLM 予測における幻覚を軽減し、LLM の信頼度の尺度をより適切に調整するのに役立つということです。
成功の確率。
特に、シーンのコンテキストと、LLM の応答を使用してスコアを計算することにより、シーン内で特定のアクションが可能で安全かどうかを LLM に判断させることを組み合わせた A-Feasibility メトリクスを提案します。
さまざまな曖昧さのあるタスクに関するシミュレーションと現実世界の両方での実験を通じて、LAP が従来技術と比較して成功率を大幅に高め、必要な人間の介入の量を減らすことを示しました。
たとえば、実際のテスト パラダイムでは、LAP は以前の方法の人的支援率を 33% 以上減少させ、成功率は 70% でした。
要約(オリジナル)
Large language models (LLMs) showcase many desirable traits for intelligent and helpful robots. However, they are also known to hallucinate predictions. This issue is exacerbated in robotics where LLM hallucinations may result in robots confidently executing plans that are contrary to user goals, relying more frequently on human assistance, or preventing the robot from asking for help at all. In this work, we present LAP, a novel approach for utilizing off-the-shelf LLMs, alongside a novel Action feasibility metric, in robotic Planners that minimize harmful hallucinations and human intervention. Our key finding is that calculating and leveraging a new metric, which we call A-Feasibility, a measure of whether a given action is possible and safe in the provided scene, helps to mitigate hallucinations in LLM predictions and better align the LLM’s confidence measure with the probability of success. We specifically propose an A-Feasibility metric which both combines scene context and prompting a LLM to determine if a given action is possible and safe in the scene, using the LLM’s response to compute the score. Through experiments in both simulation and the real world on tasks with a variety of ambiguities, we show that LAP significantly increases success rate and decreases the amount of human intervention required relative to prior art. For example, in our real-world testing paradigm, LAP decreases the human help rate of previous methods by over 33% at a success rate of 70%.
arxiv情報
著者 | James F. Mullen Jr.,Dinesh Manocha |
発行日 | 2024-10-15 16:35:56+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google