Evaluating Human Trust in LLM-Based Planners: A Preliminary Study

要約

大規模な言語モデル(LLM)は、タスクの計画にますます使用されており、説明や反復改良などの古典的なプランナーには見られない一意の機能を提供します。
ただし、LLMベースの計画タスクのコンテキストでは、計画システムの採用における重要な要素である信頼が不要です。
この研究は、LLMベースのプランナーの人間の信頼を、計画ドメイン定義言語(PDDL)ドメインでのユーザー調査を通じて、古典的なプランナーと比較することにより、このギャップを橋渡しします。
信託アンケートなどの主観的な尺度を、評価の精度などの客観的なメトリックと組み合わせて、私たちの調査結果は、正確性が信頼とパフォーマンスの主要な要因であることを明らかにしています。
LLMによって提供される説明は、評価の精度を改善しましたが、信頼への影響は限られていましたが、計画の改良性は、評価の精度を大幅に向上させることなく信頼を高める可能性を示しました。

要約(オリジナル)

Large Language Models (LLMs) are increasingly used for planning tasks, offering unique capabilities not found in classical planners such as generating explanations and iterative refinement. However, trust–a critical factor in the adoption of planning systems–remains underexplored in the context of LLM-based planning tasks. This study bridges this gap by comparing human trust in LLM-based planners with classical planners through a user study in a Planning Domain Definition Language (PDDL) domain. Combining subjective measures, such as trust questionnaires, with objective metrics like evaluation accuracy, our findings reveal that correctness is the primary driver of trust and performance. Explanations provided by the LLM improved evaluation accuracy but had limited impact on trust, while plan refinement showed potential for increasing trust without significantly enhancing evaluation accuracy.

arxiv情報

著者 Shenghui Chen,Yunhao Yang,Kayla Boggess,Seongkook Heo,Lu Feng,Ufuk Topcu
発行日 2025-02-27 17:10:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.HC パーマリンク