HEAL: An Empirical Study on Hallucinations in Embodied Agents Driven by Large Language Models

要約

大規模な言語モデル(LLM)は、具体化されたエージェントの認知コアとしてますます採用されています。
ただし、継承された幻覚は、観測された物理的環境でユーザーの命令を接地する障害に起因するものであり、存在しない冷蔵庫の検索など、ナビゲーションエラーにつながる可能性があります。
この論文では、LLMベースの具体化されたエージェントにおける幻覚の最初の体系的な研究を、シーンタスクの矛盾の下で長距離タスクを実行する具体化されたエージェントを提示します。
私たちの目標は、幻覚がどの程度発生するか、どのような矛盾がそれらを引き起こすか、そして現在のモデルの反応を理解することです。
これらの目標を達成するために、既存のベンチマークに基づいて構築することにより、幻覚プロービングを構築し、ベースプロンプトよりも最大40倍高く幻覚速度を誘導できます。
2つのシミュレーション環境で12のモデルを評価すると、モデルは推論を示しますが、実行不可能なタスクの処理における基本的な制限を高く評価するシーンタスクの矛盾を解決できないことがわかります。
また、各シナリオの理想的なモデル行動に関する実用的な洞察を提供し、より堅牢で信頼できる計画戦略を開発するためのガイダンスを提供します。

要約(オリジナル)

Large language models (LLMs) are increasingly being adopted as the cognitive core of embodied agents. However, inherited hallucinations, which stem from failures to ground user instructions in the observed physical environment, can lead to navigation errors, such as searching for a refrigerator that does not exist. In this paper, we present the first systematic study of hallucinations in LLM-based embodied agents performing long-horizon tasks under scene-task inconsistencies. Our goal is to understand to what extent hallucinations occur, what types of inconsistencies trigger them, and how current models respond. To achieve these goals, we construct a hallucination probing set by building on an existing benchmark, capable of inducing hallucination rates up to 40x higher than base prompts. Evaluating 12 models across two simulation environments, we find that while models exhibit reasoning, they fail to resolve scene-task inconsistencies-highlighting fundamental limitations in handling infeasible tasks. We also provide actionable insights on ideal model behavior for each scenario, offering guidance for developing more robust and reliable planning strategies.

arxiv情報

著者 Trishna Chakraborty,Udita Ghosh,Xiaopan Zhang,Fahim Faisal Niloy,Yue Dong,Jiachen Li,Amit K. Roy-Chowdhury,Chengyu Song
発行日 2025-06-18 02:13:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO パーマリンク